2.1 机器学习概述
2.1.1 机器学习的概念
机器学习的研究最早可以追溯至20世纪50年代,由阿瑟·萨缪尔(Arthur Samuel)提出。当时萨缪尔研制出一个西洋跳棋程序,这个程序通过分析以往的大量棋局后分辨出当前棋局落子的“利”与“弊”,其原理类似于今天谷歌提出的围棋机器人AlphaGo。后来在1956年的达特茅斯会议上,应约翰·麦卡锡的邀请萨缪尔介绍了该项工作,并将程序逐渐学会下棋的过程用“机器学习”一词概括,这正是“机器学习”概念的首次提出。到了1959年,该跳棋程序打败了萨缪尔本人,3年后更是击败了全美排名第四的跳棋冠军,成为轰动一时的热点事件。1966年,萨缪尔退休后继续在斯坦福大学担任研究教授,他将跳棋程序持续改进,直到1970年才被超越。正是由于萨缪尔在机器学习领域的杰出贡献,他也被后人称为“机器学习之父”。
机器学习自20世纪50年代被提出起就吸引了许多研究人员的关注和讨论。为了能够更好地阐述机器学习的概念,这里给出一些科学家对机器学习的定义:
(1)阿瑟·萨缪尔在1959年的论文“Some Studies in Machine Learning Using the Game of Checkers”中对机器学习作出这样的定义,即机器学习是让计算机在没有明确编程的情况下具备学习能力的研究领域。该定义指出机器学习应该具有自动化的特点,强调机器学习系统能够通过不断学习进行自我改进。
(2)“全球机器学习教父”汤姆·米切尔(Tom Mitchell)在1986年出版的Machine Learning一书中将机器学习描述为:“一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,该程序在处理T时的性能有所提升”。在这里,机器学习被看作是一种具体的任务和过程,注重机器学习的实际应用。
(3)著名科学家吴恩达(Andrew Ng)在2012年的一次演讲中定义机器学习为“让计算机从数据中学习模式的科学”,指出数据对于机器学习的重要性。
(4)2015年,迈克尔·乔丹(Michael Jordan)在发表的一篇题为“Machine Learning:Trends, Perspectives, and Prospects”的综述论文中提出“机器学习是从数据中提取知识并使计算机能够自主决策的一种方法”,认为机器学习的目标是从数据中获取知识和信息,并自动化地应用这些知识和信息进行决策。
(5)佩德罗·多明戈斯(Pedro Domingos)在2015年出版的名为The Master Algorithm:How the Quest for the Ultimate Learning Machine Will Remake Our World的书中对机器学习做出定义,即机器学习是关于构建能够自动改善的系统的科学,认为机器学习不仅是一种技术,更是一种科学。
总而言之,机器学习就是计算机对已有的数据或者经验进行学习理解,并用模型的形式对整个过程归纳描述,以实现预测未来的一种方法。机器学习在形式上相当于寻找一个合适的函数来描述任务,具体表现为近似于在数据对象中通过统计或推理的方法寻找一个适用特定输入和预期输出功能的函数。如图2-1所示,机器学习的过程可以这样理解,在已知图片是喜羊羊的基础上,利用该经验寻找某个具体的函数,使得该函数在输入图片后能推理出其中卡通人物的名字。当然,推理的结果有好有坏,并且不同的任务需使用不同的模型。
图2-1 机器学习的具体表现
对比于深度学习和强化学习,机器学习是一个更为广泛的概念。机器学习是人工智能的一个分支,机器学习包含了深度学习、强化学习等技术。机器学习是一种通过训练模型从数据中学习,并使用模型进行预测的方法。深度学习是机器学习的一种特殊形式,主要是基于深度人工神经网络(deep artificial neural network)模型来处理更大规模数据,解决复杂的非线性问题,因此在图像识别、语音识别、自然语言处理等领域被广泛使用。强化学习是机器学习的另一种形式,它是通过试错过程来学习最优策略的一种方法。在强化学习中,智能体通过与环境互动来学习,它会尝试不同的行动,观察环境的反馈,并根据反馈来调整自己的行为。强化学习在游戏、机器人控制、自动驾驶等领域中得到了广泛应用。