1.3 深度学习方法的分类
深度学习发展到今天,总结起来,其起源可以归结为感知器和玻尔兹曼机两种不同的途径(见图1-9)。
图1-9 深度学习方法的起源
起源于感知器的深度学习把多个感知器组合到一起,得到多层结构的感知器,在多层感知器的基础上,再加上类似于人类视觉皮质结构而得到的卷积神经网络,被广泛应用于图像识别。这是一种有监督的学习,通过不断修正实际输出与期望输出之间的差值来训练网络。
起源于受限玻尔兹曼机的深度学习是一种无监督学习,只根据特定的训练数据来训练网络。玻尔兹曼机是基于图模型的,把多个受限玻尔兹曼机组合起来可以得到深度玻尔兹曼机和深度信念网络。
本书将在第3章中介绍神经网络的相关知识,在第4章中介绍卷积神经网络,在第5章中介绍玻尔兹曼机和深度信念网络。
机器学习的分层模型原理目前应用较广,本书在此不再赘述,重点介绍图模型原理。
引发一个事件往往有多种原因,每种原因所起的作用不一定相同。也就是说,这些原因引发该事件的可能性各不相同。因此,预测事件发生的机器学习算法经常涉及多个随机变量的概率。要计算多个变量的概率需要用到条件概率公式:
p(ab)=p(b)p(a|b)
假定有3个随机变量a, b, c,它们之间的相互关系是:a影响b的取值,b影响c的取值,a|b与c|b是独立的,那么有:
这样把3个变量同时发生的概率简化为2个变量的概率乘积。
借助有向图来描述前面的推导过程更加直观。有向图中的每个节点对应一个随机变量,连接2个节点的每条有向边,表示这2个随机变量之间的关系,即起始端变量影响结束端变量的取值。
如图1-10所示,5个随机变量同时发生的概率可以分解为一串两个变量的概率的乘积:
图1-10 5个随机变量的有向图
p(abcde)=p(a)p(b|a)p(c|a)p(c|b)p(d|b)p(e|c)
推广到一般,设yi为随机变量xi的父节点,那么,图1-2的概率可以写成: