2.1 机器学习基本概念
2.1.1 机器学习分类
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。通俗地说,机器学习是让计算机从数据中去挖掘有价值的信息。
从不同的维度来分,机器学习可以有不同的分类。下面简要介绍几种常见的分类方法。
根据训练数据是否有标签,机器学习可以分为监督学习、半监督学习和无监督学习。
监督学习:指的是训练数据中每个样本都有标签,通过标签可以指导模型进行训练,学到具有判别性的特征,从而能够对未知样本进行预测。比如图像分类比赛ImageNet,通过利用每张图像已有的标签训练模型,使得模型可以对未知的图像进行预测,得到相应的分类结果。
无监督学习:指的是训练数据完全没有标签,通过算法从数据中发现一些数据之间的约束关系,比如数据之间的关联、距离关系等。典型的无监督算法如聚类,根据一定的度量指标,将“距离”相近的样本聚集在一起。
半监督学习:指的是介于监督学习和无监督学习之间的一种学习方式。它的训练数据既包含有标签数据,也包含无标签数据。假设如果标签数据和无标签数据都是从同一个分布采样而来,那无标签数据中含有一些数据分布相关的信息,可以作为标签数据之外的补充。这种情况在现实中是非常常见的。比如在互联网行业,每天会产生大量的数据,这些数据部分可能携带标签,但更多的数据是不带标签的,如果靠人工去标记这些无标签数据,代价是相当大的,而半监督学习可以提供一些解决思路。
从算法输出的形式上来分,可以分为分类问题和回归问题,这两类问题都属于监督学习的范畴。
分类问题:指的是模型的输出值为离散值。比如在风控场景中,模型通常输出的是正常/异常两类结果;在图像分类任务中,模型输出为图像所属的具体类别。
回归问题:指的是模型的输出值为连续值。比如在电商广告推荐中,模型常常输出用户点击某个商品的概率,概率越高表示模型认为用户越倾向于点击该商品。