自己动手写分布式搜索引擎
上QQ阅读APP看书,第一时间看更新

1.3.5 文本挖掘

搜索文本信息需要理解人类的自然语言。文本挖掘是指从大量的文本数据中抽取隐含的、未知的、可能有用的信息。

常用的文本挖掘方法包括:全文检索、中文分词、句法分析、文本分类、文本聚类、关键词提取、文本摘要、信息提取、智能问答等。文本挖掘相关技术的结构如图1-8所示。

图1-8 文本挖掘的结构