1.1.4 和人工智能相关的几个重要概念
1.监督学习
监督学习的任务是学习一个模型,这个模型可以处理任意的一个输入,并且针对每个输入都可以映射输出一个预测结果。这里模型就相当于数学中一个函数,输入就相当于数学中的X,而预测的结果就相当于数学中的Y。对于每一个X,都可以通过一个映射函数映射出一个结果。
2.非监督学习
非监督学习是指直接对没有标记的训练数据进行建模学习。注意,在这里的数据是没有标记的数据,与监督学习最基本的区别之一就是建模的数据是否有标签。例如聚类(将物理或抽象对象的集合分成由类似的对象组成的多个类的过程)就是一种典型的非监督学习,分类就是一种典型的监督学习。
3.半监督学习
当有标记的数据很少、未被标记的数据很多,且人工标记又比较昂贵时,可以根据一些条件(查询算法)查询一些数据,让专家进行标记。这是半监督学习与其他算法的本质区别。所以说对主动学习的研究主要是设计一种框架模型,运用新的查询算法查询需要专家来人工标注的数据。最后用查询到的样本训练分类模型来提高模型的精确度。
4.主动学习
当使用一些传统的监督学习方法做分类处理时,通常是训练样本的规模越大,分类的效果就越好。但是在现实中的很多场景中,标记样本的获取是比较困难的,因为这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都很大。而且,如果训练样本的规模过于庞大,则训练花费的时间也会比较多。那么问题来了:有没有一种有效办法,能够使用较少的训练样本来获得性能较好的分类器呢?答案是肯定的,主动学习(Active Learning)提供了这种可能。主动学习通过一定的算法查询出最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。
在人类的学习过程中,通常利用已有的经验来学习新的知识,又依靠获得的知识来总结和积累经验,经验与知识不断交互。同样,机器学习就是模拟人类学习的过程,利用已有的知识训练出模型去获取新的知识,并通过不断积累的信息去修正模型,以得到更加准确有用的新模型。不同于被动地接受知识,主动学习能够有选择性地获取知识。