1.2 机器学习
机器学习是人工智能的一个分支,也是用来实现人工智能的一个有效手段。简单地说,机器学习就是通过算法使得机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做出预测。使用大量数据和算法来“训练”机器,由此让机器来学习如何完成任务。
机器学习主要分三种形式,即监督学习、非监督学习、半监督学习。最常见的是监督学习中的分类问题。监督学习的训练样本都含有“标签”,非监督学习的训练样本中都不含“标签”,而半监督学习介于监督学习和非监督学习之间。在监督学习中,因为训练集全部已经标记了,所以关注点通常是在未来测试数据上的性能;而在半监督学习的分类问题中,训练数据中包含未标记的数据。因此,存在两个不同的目标:一个是预测未来测试数据的类别,另一个是预测训练样本中未标记实例的类别[2]。
1.2.1 监督学习
监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人为标注的。监督学习中最常见的是分类问题,通过已有的训练样本去训练,得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习已经创建好的分类系统。常见的监督学习算法有:回归分析和统计分类。
1.2.2 非监督学习
非监督学习事先没有任何训练样本,而需要直接对数据进行建模。样本数据类别未知,需要根据样本间的相似性对样本集进行分类,试图使类内差距最小化,类间差距最大化。通俗点来说,就是实际应用中不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。非监督学习里典型的例子是聚类。聚类的目的在于把相似的东西聚在一起,而并不关心这一类是什么。
1.2.3 半监督学习
半监督学习所给的数据,有的是有标签的,有的是没有标签的。单独使用有标签的样本,能够生成有监督的分类算法;单独使用无标签的样本,能够生成非监督聚类算法。若两者都使用,则希望在有标签的样本中加入无标签的样本,增强有监督分类的效果;同样,希望在无标签的中加入有标签的样本,增强非监督聚类的效果。一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。