上QQ阅读APP看书,第一时间看更新
1.3 机器学习三要素
按照统计机器学习的观点,任何一个机器学习方法都是由模型(model)、策略(strategy)和算法(algorithm)三个要素构成的,具体可理解为机器学习模型在一定的优化策略下使用相应求解算法来达到最优目标的过程。
机器学习的第一个要素是模型。机器学习中的模型就是要学习的决策函数或者条件概率分布,一般用假设空间(hypothesis space)来描述所有可能的决策函数或条件概率分布。当模型是一个决策函数时,如线性模型的线性决策函数,可以表示为若干决策函数的集合:
其中和为定义在输入空间和输出空间中的变量。
当模型是一个条件概率分布时,如决策树是定义在特征空间和类空间中的条件概率分布,可以表示为条件概率分布的集合:
其中和为定义在输入空间和输出空间中的随机变量。
机器学习的第二个要素是策略。简单来说,就是在假设空间的众多模型中,机器学习需要按照什么标准选择最优模型。对于给定模型,模型输出和真实输出之间的误差可以用一个损失函数(loss function)来度量。不同的机器学习任务都有对应的损失函数,回归任务一般使用均方误差,分类任务一般使用对数损失函数或者交叉熵损失函数等。
机器学习的最后一个要素是算法。这里的算法有别于所谓的“机器学习算法”,在没有特别说明的情况下,“机器学习算法”实际上指的是模型。作为机器学习三要素之一的算法,指的是学习模型的具体优化方法。当机器学习的模型和损失函数确定时,机器学习就可以具体地形式化为一个最优化问题,可以通过常用的优化算法,比如随机梯度下降法、牛顿法、拟牛顿法等进行模型参数的优化求解。
当一个机器学习问题的模型、策略和算法都确定了,相应的机器学习方法也就确定了,因而这三者也叫“机器学习三要素”。