2.3 数据的概率分布_迁移学习导论-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3　数据的概率分布

数据的概率分布（Probability distribution）是统计机器学习的基础概念。数据分布，指的是数据在统计图中的形状。例如，三年级二班一共有50名同学，其中男生30名，女生20名，那么就可以简单地认为30和20是反映同学性别的数据分布。

概率分布在数据分布的基础上更进一步，它研究以概率为基础的数据分布。在介绍概率分布的概念之前，首先需要了解随机变量（Random variable）的概念。在高中阶段，我们曾经简单地学习过概率和统计的知识，其中也包括随机变量。随机变量是一种量化随机事件的函数，它给随机事件每个出现的结果赋予了一个数字。随机变量包括离散型随机变量和连续型随机变量两种。例如，对于“明天是否下雪”这个问题，答案只能从“是”和“否”两个变量中选择，这就是一种离散型随机变量；另一方面，如果我们不仅追求明天是否下雪，还需要知道下雪的概率是多少，那么这个值便可以取从0到100%之间的任意值，此时它便是一个连续型随机变量。

将概率、分布、随机事件组合，便产生了概率分布。常见的概率分布主要有二项分布、高斯分布、泊松分布、均匀分布等。通常，我们用P（x）来表示随机变量x的概率分布。

为什么要研究概率分布？

机器学习是研究数据的科学，而现实生活中的数据往往是动态变化的。统计机器学习通常假设数据是由某个概率分布或某几个概率分布组合而产生的。如果数据x是由概率分布[1]生成的，或者说，数据x服从某一概率分布，则可以被统一表示为。