3.3 算法的理论基础
对于机器学习来说,最重要的部分是两个,即数据的收集以及算法的设计。在实际应用中,数据收集一般要求有具体的格式和要求,因此对其限制较多。而对于算法的选择则较为灵活,可以根据需要选择适合数据流程的算法,进而进一步训练模型。
3.3.1 小学生的故事——求圆的面积
圆是自然界最重要和最特殊的图形,从古至今世界上对其研究非常深刻,甚至于将其视作神圣的图形对其进行膜拜。而对于数学家来说,求圆的面积,确实是对数学家能力的一次重要考验(见图3.4)。
图3.4 这个圆的面积是多少
直接计算圆的面积很难。为了解决问题,数学家们想了很多办法,其中最简单的是使用替代法。即寻找一个矩形,使其面积能够等于或者近似等于圆的面积就可以了。
古今中外,为了解决这个问题,数学家想了很多办法。
我国古代的数学家“祖冲之”,从圆内接正六边形入手,让边数成倍增加,用圆内接正多边形的面积去逼近圆面积;古希腊的数学家,从圆内接正多边形和外切正多边形同时入手,不断增加它们的边数,从里外两个方面去逼近圆面积;古印度的数学家,采用类似切西瓜的办法,把圆切成许多小瓣,再把这些小瓣对接成一个长方形,用长方形的面积去代替圆面积(见图3.5)。
图3.5 求解圆的面积
众多的古代数学家煞费苦心,巧妙构思,为求圆面积做出了十分宝贵的贡献,为后人解决这个问题开辟了道路。他们的方法无外乎使用近似的方法,将一个圆切分成若干小等分,组合成一个矩形来替代圆。
这也是微积分的数学基础。
3.3.2 机器学习基础理论——函数逼近
对于机器学习来说,机器学习的算法的理论基础即函数逼近。
在机器学习中,能够对标识或未标识的数据进行分类是机器学习的最终目的。而分类的确定是由学习模型所创建的,模型的建立则又是根据算法的不同去拟合和创建的。
在机器学习的理论中,对于数据模型来说,找到一个完全符合数据分类的模型是不可能的,因此,借助于更多更细的数据划分方法去创建一个可以划分数据的模型是可行的。
图3.6展现了一个对不规则曲线求面积的方法,对于不规则的面积,一般情况很难直接计算面积的准确大小。但可以通过变相的方法,利用更多的小矩形组合在一起,当求出更多的小矩形的面积之和时,即可近似地视为曲线面积之和。
这就是函数逼近的方法。
图3.6 面积函数逼近图
一般来说,函数逼近在机器学习中是一个巨大分类,其中包含着多种拟合方法和算法,图3.7展示了机器学习主要算法的分类。
图3.7 机器学习基本算法
从图中可以看到,机器学习的基本算法内容包含多种机器学习的成熟算法,使用范围也相当广泛,本书的后续章节中,会逐一进行介绍。一般来说,函数逼近问题被划分在预测算法之中,主要应用在自然语言处理、网络搜索服务以及精准推荐等方面。
本节主要介绍机器学习中的函数逼近,其最常用和最重要的方法被称为回归算法。