1.3 实战案例：第一个中文分词程序_Python数据预处理技术与实践-QQ阅读都市男生网

上QQ阅读APP看书，第一时间看更新

1.3　实战案例：第一个中文分词程序

在数据处理工作中，分词是一项必不可少的工作，本节使用Sublime Text完成第一个分词案例。下面介绍什么是中文分词及实现方法。

1.3.1　中文分词

中文分词是指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，在英文行文中，单词间以空格作为自然分界符，中文没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比英文要复杂得多，也困难得多。

例如：

英文句子：I am a student.

中文意思：我是一名学生。

由于英文的语言使用习惯，通过空格很容易拆分出单词，而中文字词界限模糊，往往不容易区别哪些是“字”、哪些是“词”，这也是为什么要把中文词语进行切分的原因。

1. 中文分词的发展

与英文为代表的印欧语系语言相比，中文由于继承自古代汉语的传统，词语之间常没有分隔。古代汉语中除了联绵词和人名、地名等，词通常是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词逐渐增多，一个字已经不再等同于一个词了。

在中文里，“词”和“词组”边界模糊，现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界还很难去区分。

例如：“对随地吐痰者给予处罚”，“随地吐痰者”本身是一个词还是一个短语，不同的人会有不同的标准，同样的，“海上”“酒厂”等即使是同一个人也可能做出不同的判断。如果汉语真的要分词书写，必然会出现混乱，难度也很大。中文分词的方法其实不局限于中文应用，也被应用于英文处理，例如帮助判别英文单词的边界等。

2. 中文分词的用途

中文分词是文本处理的基础，对于输入的一段中文，成功地进行中文分词，可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术的范畴，目前在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一截，而许多西文的处理方法中文却不能直接采用，就是因为中文必须有分词这道工序。中文分词是中文信息处理的基础，搜索引擎就是中文分词的一个应用，其他的比如机器翻译（Machine Translation）、语音合成、自动分类、自动摘要、自动校对等，都需要用到分词。因为中文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也是要解决中文分词问题。

中文分词对于搜索引擎来说，最重要的并不是找到所有的结果，因为在上百亿的网页中找到所有结果没有太多的意义，也没有人能看得完；相反，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。从定性分析的角度来看，搜索引擎的分词算法不同、词库的不同都会影响页面的返回结果。

1.3.2　实例介绍

本节实现一个有趣的应用。将电影《流浪地球》中的经典句子“道路千万条，安全第一条；行车不规范，亲人两行泪。”进行中文分词。这里需要使用第三方工具包结巴（jieba）来实现。

1.3.3　结巴实现中文分词

打开Sublime Text并在根目录PyDataPreprocessing下创建Chapter1文件夹，然后在Chapter1下面创建CutWords.py文件并打开。在编辑代码之前，先查看一下jieba包能否正常导入。按住Alt+Shift+2组合键进行分屏，然后按F6键进入Python IDE环境下，成功导入后如图1-18所示。

图1-18　Sublime Text下运行Python IDE

图1-18说明jieba包已经成功导入，编写如下代码（源代码见：Chapter1/CutWords.py）：

代码说明：

其中第1行是对中文编码进行设置；第3-7行是注释信息；第9行导入jieba分词模块；第14行的调用jieba模块中的cut方法对字符串分词，数据以列表（List）形式返回；第15行是格式化分词结果，将List数据转化为String数据打印出来。运行代码查看结果，如图1-19所示。

图1-19　中文分词的结果