2.3 数据的概率分布
数据的概率分布(Probability distribution)是统计机器学习的基础概念。数据分布,指的是数据在统计图中的形状。例如,三年级二班一共有50名同学,其中男生30名,女生20名,那么就可以简单地认为30和20是反映同学性别的数据分布。
概率分布在数据分布的基础上更进一步,它研究以概率为基础的数据分布。在介绍概率分布的概念之前,首先需要了解随机变量(Random variable)的概念。在高中阶段,我们曾经简单地学习过概率和统计的知识,其中也包括随机变量。随机变量是一种量化随机事件的函数,它给随机事件每个出现的结果赋予了一个数字。随机变量包括离散型随机变量和连续型随机变量两种。例如,对于“明天是否下雪”这个问题,答案只能从“是”和“否”两个变量中选择,这就是一种离散型随机变量;另一方面,如果我们不仅追求明天是否下雪,还需要知道下雪的概率是多少,那么这个值便可以取从0到100%之间的任意值,此时它便是一个连续型随机变量。
将概率、分布、随机事件组合,便产生了概率分布。常见的概率分布主要有二项分布、高斯分布、泊松分布、均匀分布等。通常,我们用P(x)来表示随机变量x的概率分布。
为什么要研究概率分布?
机器学习是研究数据的科学,而现实生活中的数据往往是动态变化的。统计机器学习通常假设数据是由某个概率分布或某几个概率分布组合而产生的。如果数据x是由概率分布[1]生成的,或者说,数据x服从某一概率分布,则可以被统一表示为。
传统的机器学习假设模型的训练数据和测试数据服从同一数据分布。我们用来表示训练数据,用来表示测试数据,则传统机器学习的假设可以被表示为
Ptrain(x,y)=Ptest(x,y). (2.3.1)
而在真实的应用中,训练数据和测试数据的数据分布往往不尽相同,即
Ptrain(x,y)≠Ptest(x,y). (2.3.2)
在正式介绍迁移学习的问题定义之前,有必要透彻理解数据分布的不同含义。图2.1表示三种高斯分布:。显而易见,这三种高斯分布是不同的,因为即使它们的均值μ均为0,它们的方差σ却不同。
传统的机器学习假设训练和测试数据的概率分布相同,例如,当训练数据服从分布时,测试数据也服从分布。
不同的数据分布意味着,当训练数据服从分布时,测试数据可能服从分布或分布。
与传统机器学习不同,迁移学习重点关注的数据分布情形恰恰是公式(2.3.2)所示的情形。
图2.1 三种不同的高斯分布
图2.2形象地表示了训练数据和测试数据服从不同数据分布的情况。这正是本书研究的问题重点。值得注意的是,概率分布P通常只是一个逻辑上的概念,即我们认为不同领域有不同的概率分布,却一般不给出(也难以给出)P的具体形式。
图2.2 训练数据和测试数据服从不同的数据分布