自然语言处理实战
上QQ阅读APP看书,第一时间看更新

主要内容

第一部分的各章会讨论使用自然语言的逻辑,并将其转换为可以搜索和计算的数字。这种对词的“拦截和处理”在信息检索和情感分析等应用中会带来很好的效果。一旦掌握了基本知识,大家就会发现有一些非常简单的算法,通过循环反复计算,就可以解决一些重要的问题,如垃圾邮件过滤。大家将在第2章到第4章中学到的这种垃圾邮件过滤技术,正在将全球电子邮件系统从混乱和停滞中拯救出来。大家将学习如何使用20世纪90年代的技术来构建一个精确率超过90%的垃圾邮件过滤器——只需要通过计算词的数目并对这些数目计算一些简单的平均值即可。

这些文字上的数学运算听起来可能很乏味,但实际上却非常有趣。很快,大家就可以构建出能够对自然语言做出决策的算法,而且可能比你自己做出的更好、更快。这可能是大家人生中第一次以这样的视角来充分欣赏语言反映和赋予你思考的方式。词和思想的高维向量空间视图将让你的大脑进入不断自我发现的循环。

本书的第二部分将是学习的高潮。这部分的核心是探索神经网络中复杂的计算和通信网络。在一个具有“思维”的网络中,小型逻辑单元之间相互作用的网络效应使机器能够解决一些过去只有聪明的人类才能解决的问题,例如类比问题、文本摘要和自然语言翻译。

是的,大家还会学到词向量,别担心,不过确实还有很多。大家将掌握对词、文档和句子进行可视化,并将它们置于一个由相互关联的概念组成的云中,这些概念远远超出了大家可以轻松掌握的三维空间。大家会把文档和词想象成“龙与地下城”的角色表,里面有无数随机选择的特征和能力,它们随着时间的推移而进化和成长,当然这些只发生在我们的头脑中。

对词及其含义的理解将是第三部分“进入现实世界”的基础,在这里大家将学习如何构建能够像人类一样交谈和回答问题的机器。