Chapter 2
第2章 图像理解
图像理解(Image Understanding,IU)是对图像的语义理解。它是以图像为对象,以知识为核心,研究图像中的目标、目标之间的相互关系、图像所处的场景以及如何应用场景的一门学科。
图像理解讨论的问题是为了完成某一任务需要从图像中获取哪些信息,以及如何利用这些信息获得必要的解释。图像理解的研究涉及获取图像的方法、装置和具体的应用实现。
对图像理解的研究始于20世纪60年代初,研究初期以计算机视觉为载体。计算机视觉是研究如何用计算机来模拟人类视觉或灵长类动物视觉的一门科学,主要研究内容包括图像获取、图像处理、图像分析、图像识别。图像包括静态图像、动态图像、视频。对于二维图像和立体图像,计算机视觉的输入是数据,输出也是数据,是结构化或半结构化的数据和符号。识别是传统计算机视觉的目的,即得到图像中有什么这一结论。
图像理解属于数字图像处理的研究范畴,属于高层操作,其重点是在图像分析的基础上进一步研究图像中各目标的性质及其相互关系,并得出对图像内容含义的理解以及对原来客观场景的解释,进而指导和规划行为。图像理解所操作的对象是从描述中抽象出来的符号,其处理过程和方法与人类的思维推理有许多相似之处。
图像理解与人工智能密切相关,随着计算机视觉和人工智能学科的发展,相关研究的内容不断拓展、相互覆盖。图像理解既是对计算机视觉研究的延伸和拓展,又是人工智能的研究新领域,近年来已在工业视觉、人机交互、视觉导航、虚拟现实、特定图像分析解释以及生物视觉研究等领域得到了广泛的应用。总之,图像理解的内容相当丰富,涉及面也很广,是一门新兴的综合学科。
图像的类别是最常见、最容易表示的高层语义信息,因此,图像分类是很多视觉任务的基础。当图像中包含多个物体时,图像级标签描述的粒度就不够精细了,且不同物体会影响图像分类的准确率。图像检测任务要求模型返回图像中物体的边界框(bounding box),以及边界框所包含图像块[1]的类别。相比简单的分类,图像检测算法可以获得更丰富、更精细的类别信息。相比于高层语义理解,底层语义理解往往关注像素级信息,例如图像语义分割、图像拼接和图像补全等。本书涉及的图像理解,侧重高层语义内容信息的获取和分析,本章主要介绍图像分类、图像检测及其实际应用。