短文本数据理解
上QQ阅读APP看书,第一时间看更新

推荐序二

短文本是互联网上广泛存在的一种文本数据,如搜索引擎查询、广告及推荐系统关键词、社交网络聊天记录、产品的用户评论等。然而,由于短文本“短”的特性,使得机器理解其语义面临极大的挑战。以英文搜索引擎的查询为例,97%的搜索查询所包含的词数少于或等于8个,其中更是有63%的搜索查询只包含一两个词。因此对于短文本,机器必须从极为有限的上下文中,尝试挖掘出丰富而有效的信息,这是关乎机器人工智能的基础性研究,对许多实际应用场景具有至关重要的意义。

本书围绕短文本理解的各项需求及挑战,创造性地提出了概念化模型作为短文本理解的核心技术,为解决机器短文本理解这一问题迈出了重要的一步。本书涵盖了如下创新性研究内容:1)提出了基于概率的属性提取与推导,并挖掘了动词、形容词等非实体词与概念之间的语义关联,为短文本理解奠定了基础,完善了短文本理解所需的语义网络;2)针对短文本理解的概念化模型,通过解决短文本中单实体和多实体的概念化问题,克服了短文本较稀疏、噪声多、歧义大的特点,将短文本转为机器可以计算的一种显性概念向量表示方法,这成为短文本理解的一种新的解决方案;3)针对短文本中的主题词与修饰词检测问题,提出了一种基于概念化、面向开放领域的无监督检测机制。

本书作者王仲远是我的博士生,也曾是微软亚洲研究院最年轻的主管研究员之一。他在微软亚洲研究院工作以及博士研究生就读期间在顶级学术会议和期刊上发表了一系列与短文本相关的论文,并在提炼和系统化这些工作的基础上写就了其博士论文。作为其导师,我很欣慰地看到他不辞辛苦地将其博士论文整理成册,将其中的理论和技术介绍给更多的读者,从而推动国内相关研究领域的发展。

全书结构清晰,深入浅出,以大量实例来解释其背后的技术难点与解决方案,并展示了在实际广告系统中的应用实例。相信本书对广大的科研工作者、研究生及从事相关工作的算法工程师都具有重要的参考价值。我向广大读者大力推荐这本书籍!

国家“千人计划”特聘专家,中国人民大学信息学院院长

2016年9月26日