译者序
光阴似箭,日月如梭。从我2008年翻译第一本书《信息检索导论》至今已经整整过去12年了。12年来,我也从中科院的一名老员工变成了工业界的一名“老”员工,自然语言处理(Natural Language Processing,NLP)领域也发生了十分剧烈的变化。NLP学者们从早期质疑深度学习到全面拥抱深度学习仅仅经历了两三年时间。而工业界则将这一举动推进得更加彻底:深度学习已经全面应用于工业界的许多NLP场景中。可以说,当前深度学习已经成为NLP学术研究和工业应用中不可或缺的一件利器。与此同时,被誉为“人工智能领域皇冠上的明珠”的NLP也迎来了属于自己的“黄金”时代,在包括人机对话、机器翻译、自动写作、机器阅读等在内的诸多NLP应用中都取得了一系列令人欣喜的进步。
正因为深度学习和NLP密不可分,近年来有关“深度学习+NLP”的课程和书籍也在不断涌现。本书就是其中的一本。和其他实战类书籍一样,本书既有基础理论也有编程实战,基础理论部分简洁易懂,编程实战部分可以直接下载源码运行,这种搭配特别适合初学者入门,可以作为现代NLP从业者的第一本入门书。值得一提的是,这本书是我和《信息检索导论》的责任编辑杨海玲再次联手的成果,期望能给大家再次带来一部好的翻译作品。
本书的内容主要包括3部分:第一部分是NLP基础入门,包括自然语言本身的特点、处理过程中的分词、TF-IDF向量化以及从词频向量到语义向量的转换;第二部分是深度学习部分,包含词向量、CNN、RNN、LSTM、注意力机制等基本的深度学习模型和方法;第三部分是实战部分,既包括信息提取、问答系统、人机对话等系统构建中的模型挑战,也包括它们遇到的性能挑战,还介绍了应对这些挑战的一些实际做法。虽然本书给出的是一些经典的基本模型,但是对它们的深刻理解十分有助于快速掌握一些新模型(如Transformer和BERT)。学完本书,再去掌握新的模型,有事半功倍的效果。
由于个人工作繁忙,精力有限,我邀请了小米人工智能部AI实验室NLP团队的多位同事合作,他们都有十分丰富的NLP实战经验,期望这些经验有助于提高本书的翻译质量。其中,我本人承担了第1~4章的翻译工作,鲁骁、唐可欣、史亮分别承担了第5~7章、第8~10章、第11~13章的翻译工作,其余部分由大家共同完成,最后由史亮博士进行了统稿整理。在翻译过程中,小米NLP团队的部分成员、我在中科院和北大的一些毕业或在读研究生也提出了宝贵的建议,他们是孟二利、崔建伟、齐保元、李丹、李文娜、花新宇、郭元凯、邓雄文、胡羽蓝、王铄、胡仁林、刘坤、彭团民、徐泽宇、过群、李鑫、柯震、王颖哲、周美林、梁棋、李铂鑫、黄琪、刘春晓、骆丹、陈建均、马路、郁博文、朱时超、朱茜、林希珣、曹江峡、从鑫、王栋、胡雪丹、卞娅靖、何纯玉、徐雅珺、王梓涵、易传润、陈宇鹏、王飞、管文宇、薛梦鸽、刘陆琛、袁玥、唐恒柱、盛傢伟、纪鸿旭、韩佳乘、李羿达、刘世阳、李向阳等,在此一并表示感谢。
由于我们水平有限,如有翻译不当之处还请多多指正。有关本书的任何意见和建议都可以通过电子邮件(wbxjj2008@gmail.com)或者人民邮电出版社异步社区网站进行反馈。
最后,感谢雷总对技术的高度重视,感谢崔宝秋博士的引荐和指导,让我能够很顺利地从学术界走到工业界,并且能有幸和一群非常优秀、非常低调、非常单纯的同事们共事。在工业界,我每天都能看到各种可能的NLP和AI应用场景,场景和技术的无数可能组合让我这个NLP老兵激动不已。我们团队研发的技术也越来越多地应用到公司的产品中,为更多用户带来了更好的体验。我也希望,有更多人投入到NLP以及AI领域中,一起用我们的科技为用户带来美好生活。
王斌
2020年3月3日于小米科技园