内容理解:技术、算法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 图像分类

图像分类是图像内容理解中的基础研究领域之一,任务是通过模式识别的方法,为图像提供语义标签,从而将不同内容的图像区分,与已知语义概念进行关联。图像分类通常包括表征和分类两个步骤。

图像在计算机中以像素矩阵的形式存储,计算机无法直接理解线条、平面、形状、物体等语义信息,这种像素点阵和语义之间的差别通常被称为语义鸿沟。图像表征的过程也称为图像特征提取,是将像素矩阵转化为(具有物理意义的)高维向量,从而克服语义之间的差别。图像分类的过程是用分类器找到不同内容图像特征之间的边界,将图像按照内容归类。在深度学习被广泛应用于计算机视觉任务之前,传统算法主要通过人工设计的特征对图像进行表征,之后用机器学习中的分类器对特征进行分类。

传统算法的优点是图像表征过程是无监督的,对不同数据集可以采用相同的特征提取方式,泛化能力较好。在分类过程中,由于分类器的参数较少,因此对训练数据的规模要求不高。传统算法的缺点是人工设计的特征是固定的,没有利用数据集的特性,算法准确率上限不高。深度学习方法用卷积网络提取图像全局特征,网络参数是通过标签样本训练得到的。此外,因为特征提取模块和分类器是同时训练的,所以得到的特征更具有可区分性。深度学习方法的优点是算法的性能上限很高,甚至可以超过人的分类准确率;缺点是需要大量带标注的训练数据。本节将详细介绍这两类图像分类方法。