深度学习:从基础到实践(全2册)
上QQ阅读APP看书,第一时间看更新

2.1 为什么这一章出现在这里

我们经常想要讨论不同的数据段之间的关系,但不需要单独讨论每段数据。从某种意义上说,大部分数据是“相同的”的吗?还是它们的分布跨越了一个很广的范围而存在“差异”?是否有一些奇怪的数据看起来不太合群?数据间是否存在某种连接了部分或是所有数据段的模式?

这些问题在机器学习中是很重要的,因为我们对数据了解得越多,就能更好地去选择和设计用于研究和控制数据的工具。

打个比方,假设我们需要把两块木板和一小块给定的金属连接起来,如果给定的金属是钉子,我们就要选用锤子;如果给定的金属是螺丝,我们就要选用螺丝刀。通过分析得到的数据,我们就可以选择最合适的工具来从数据中获得最大的价值。

这些工具给出了语言和概念,让我们可以讨论大型数据集,但它们往往都是和统计学捆绑在一起的。

让我们来直面一个真相:你可能不会读一本机器学习的书,因为你想了解的是统计学。但是这些想法是如此重要,以至于你至少需要熟悉一些机器学习的内容。从论文和源代码注释到馆藏文献,统计的思想和语言在机器学习中无处不在,至少了解一个数据集的基本统计情况对于选择一个合适的用于学习数据的工具和算法来说是不可或缺的。

因此,我们将尽力精简本章的篇幅并突出重点,即涵盖核心思想,但不深入研究数学理论或细节。我们的目标是建立对于统计学的充分理解和直觉,以在进行机器学习时做出正确的决定。

与统计学思想有着紧密联系的是随机数,我们本章会介绍更多有关随机数(random number)的概念,而不仅是库中的一个例程。

即便你已经熟悉统计学和随机数的相关知识,或者确实不在意它们,也应快速浏览一下这部分内容,这样就会知道我们在本书中使用的一些语言,在书中遇到这些概念时,也知道到哪里去找。