上QQ阅读APP看书,第一时间看更新
第1章 数据科学——鸟瞰全景
数据科学或机器学习是一个使机器能够在不被告知数据或编程的情况下从数据集中学习知识的过程。例如,编写一个能够将手写数字作为输入图像并根据输入的图像输出值为0~9的程序非常困难。这同样适用于将收到的电子邮件分为垃圾邮件或非垃圾邮件的任务。为了解决这些问题,数据科学家使用数据科学或机器学习领域的学习方法和工具,通过向计算机提供一些可以区分一位数字和另一位数字的解释性特征,教会计算机如何自动识别数字。对于垃圾邮件/非垃圾邮件问题也是如此,我们可以通过特定的学习算法教会计算机如何区分垃圾邮件和非垃圾邮件,而不是使用正则表达式并编写数百条规则来对收到的电子邮件进行分类。
对于垃圾邮件过滤程序,你可以通过基于规则的方法对它进行编码,但它不会用于生产中,比如邮件服务器中的程序。所以建立一个学习系统是一个理想的解决方案。
用户可能每天都在使用数据科学应用程序,却不知道它就是数据科学应用程序。例如,某机构可能使用某些系统来检测大家发布的信件的邮政编码,以便自动将它们转发到正确的区域。如果用户使用亚马逊网站,它们通常会推荐用户购买一些东西,亚马逊就是通过了解用户经常搜索或购买哪些东西做到这一点的。
建立一个训练的机器学习算法需要一些基础的历史数据样本,从中学习如何区分不同的例子,并从这些数据中了解一些知识和趋势。之后,训练算法可用于对未知数据进行预测。学习算法将使用原始历史数据,并将尝试从该数据中了解一些知识和趋势。
本章将全面介绍数据科学,包括数据科学如何像一个黑盒子一样工作,以及数据科学家每天面临的挑战。本章具体讨论以下主题。
- 通过示例了解数据科学。
- 设计数据科学算法的程序。
- 开始学习。
- 实现鱼类识别/检测模型。
- 不同的学习类型。
- 数据量和行业需求。