Scikit-learn机器学习详解(上)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 机器学习和数据挖掘

虽然数据挖掘(DM, Data Mining)这一术语在20世纪90年代才出现,但是数据挖掘所涉及的技术早在20世纪30年代已有所发展。随着计算机技术和数据库在各行各业得到广泛应用,业务系统产生的数据量不断膨胀,传统的统计分析工具受到巨大的挑战,导致企业级数据仓库(DW,Data Warehouse)出现,数据仓库的出现,预示着需要某种革命性的技术去挖掘大量数据背后的潜在价值。科学家和研究人员把当时最新的数据分析技术(例如关联规则、神经网络、决策树等)与数据库技术结合起来,用计算机尝试挖掘基于数据库存储的大量业务数据背后的信息和知识,两者的结合催生了数据库知识发现(KDD, Knowledge Discovery in Databases)的诞生。1989年8月,在美国底特律召开的第11届国际人工智能联合会议(IJCAI-89)上,首次由Gregory PiatetskyShapiro提出了知识发现(KDD)这个概念,目前KDD的重点已经从发现方法转向了实践应用。

数据挖掘是KDD的核心,它是从大量数据中提取可信的、新颖的、有效的知识的处理过程,这些知识一般来说是隐含的、事先未知的有用信息,表现形式为概念、规则、模式和规律等。图1-7展示了数据挖掘示意图。

从数据挖掘和机器学习的发展历史来看,两者在起源、任务目标、实现技术等方面有众多的不同,但是随着大数据及人工智能技术的发展和应用,可以认为机器学习是数据挖掘的升级,两者的区别越来越小,更多的是分工和融合。笔者认为,当前数据挖掘和机器学习的关系是业务应用和具体技术的关系,简单来说,数据挖掘更多面向业务分析人员,属于业务分析的范畴,是人工智能技术在业务分析中的重要应用;机器学习关注机器训练,涉及自动提取信息和构建模型的算法研究,是人工智能技术发展的重要组成部分。二者是同一个问题的不同侧面,和大数据技术一起,携手共同解决业务问题,实现业务的智能化。

图1-7 数据挖掘示意图