上QQ阅读APP看书,第一时间看更新
第一部分 处理文本的机器
第一部分会介绍一些来自真实世界的应用,从而开启大家的自然语言处理(Natural Language Processing,NLP)“冒险之旅”。
在第1章中,我们将很快开始思考一个问题:如何在自己的生活中使用机器来处理文字?希望大家能感受到机器的魔力——它具备从自然语言文档的词语中收集信息的能力。词语是所有语言的基础,无论是编程语言中的关键字还是孩提时代学到的自然语言词语都是如此。
在第2章中,我们将会提供一些可以教会机器从文档中提取词语的工具。这类工具比想象的要多得多,我们将展示其中所有的技巧。大家将学会如何将自然语言中的词语自动聚合成具有相似含义的词语集合,而不需要手工制作同义词表。
在第3章中,我们将对这些词语进行计数,并将它们组织成表示文档含义的向量。无论文档是140字的推文还是500页的小说,我们都可以使用这些向量来表示整篇文档的含义。
在第4章中,我们会学到一些久经考验的数学技巧,它们可以将前面的向量压缩为更有用的主题向量。
到第一部分结束时,读者将会掌握很多有趣的NLP应用(从语义搜索到聊天机器人)所需的工具。