机器学习实战
上QQ阅读APP看书,第一时间看更新

1.2 关键术语

在开始研究机器学习算法之前,必须掌握一些基本的术语。通过构建下面的鸟类分类系统,我们将接触机器学习涉及的常用术语。这类系统非常有趣,通常与机器学习中的专家系统有关。开发出能够识别鸟类的计算机软件,鸟类学者就可以退休了。因为鸟类学者是研究鸟类的专家,因此我们说创建的是一个专家系统。

表1-1是我们用于区分不同鸟类需要使用的四个不同的属性值,我们选用体重、翼展、有无脚蹼以及后背颜色作为评测基准。现实中,你可能会想测量更多的值。通常的做法是测量所有可测属性,而后再挑选出重要部分。下面测量的这四种值称之为特征,也可以称作属性,但本书一律将其称为特征。表1-1中的每一行都是一个具有相关特征的实例。

表1-1 基于四种特征的鸟物种分类表

表1-1的前两种特征是数值型,可以使用十进制数字;第三种特征(是否有脚蹼)是二值型,只可以取0或1;第四种特征(后背颜色)是基于自定义调色板的枚举类型,这里仅选择一些常用色彩。如果仅仅利用常见的七色作为评测特征,后背颜色也可以是一个整数。当然在七色之中选择一个作为后背颜色有些太简单了,但作为专家系统的演示用例,这已经足够了。

如果你看到了一只象牙喙啄木鸟,请马上通知我!而且千万不要告诉任何人。在我到达之前,一定要看住它,别让它飞跑了。(任何发现活的象牙喙啄木鸟的人都可以得到5万美元的奖励。)

机器学习的主要任务就是分类。本节我们讲述如何使用表1-1进行分类,标识出象牙喙啄木鸟从而获取5万美元的奖励。大家都想从众多其他鸟类中分辨出象牙喙啄木鸟,并从中获利。最简单的做法是安装一个喂食器,然后雇用一位鸟类学者,观察在附近进食的鸟类。如果发现象牙喙啄木鸟,则通知我们。这种方法太昂贵了,而且专家在同一时间只能出现在一个地方。我们可以自动化处理上述过程,安装多个带有照相机的喂食器,同时接入计算机用于标识前来进食的鸟。同样我们可以在喂食器中放置称重仪器以获取鸟的体重,利用计算机视觉技术来提取鸟的翅长、脚的类型和后背色彩。假定我们可以得到所需的全部特征信息,那该如何判断飞入进食器的鸟是不是象牙喙啄木鸟呢?这个任务就是分类,有很多机器学习算法非常善于分类。本例中的类别就是鸟的物种,更具体地说,就是区分是否为象牙喙啄木鸟。

最终我们决定使用某个机器学习算法进行分类,首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合,表1-1是包含六个训练样本的训练集,每个训练样本有4种特征、一个目标变量,如图1-2所示。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。正如前文所述,这里的目标变量是物种,也可以简化为标称型的数值。我们通常将分类问题中的目标变量称为类别,并假定分类问题只存在有限个数的类别。

图1-2 特征和标识的目标变量

注意 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。

为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。本书的后续章节将会引入更好地使用测试样本和训练样本信息的方法,这里就不再详述。

假定这个鸟类分类程序,经过测试满足精确度要求,是否我们就可以看到机器已经学会了如何区分不同的鸟类了呢?这部分工作称之为知识表示,某些算法可以产生很容易理解的知识表示,而某些算法的知识表示也许只能为计算机所理解。知识表示可以采用规则集的形式,也可以采用概率分布的形式,甚至可以是训练样本集中的一个实例。在某些场合中,人们可能并不想建立一个专家系统,而仅仅对机器学习算法获取的信息感兴趣。此时,采用何种方式表示知识就显得非常重要了。

本节介绍了机器学习领域涉及的关键术语,后续章节将会在必要时引入其他的术语,这里就不再进一步说明。下一节将会介绍机器学习算法的主要任务。