前言

计算机视觉是研究如何让计算机像人一样“看”并“理解”世界的科学，所处理的多为图像、视频或三维信息等数据类型，所涵盖的研究点涉及很多方面，例如物体检测与识别、语义分割、运动检测与跟踪、三维重建等。随着技术的发展，计算机视觉与人工智能、医学影像、公共安全、数字媒体等领域实现多学科交叉融合，衍生出了很多新的研究热点和技术应用。在这些行业快速发展的大背景下，计算机视觉相关领域的科研和技术也取得了较大的进步，并在这些行业应用中发挥了重要的作用。尤其是在图像、视频采集设备（如照相机、摄像机、手机等）较为普及的情况下，图像、视频数据越来越容易获得，计算机视觉相关的应用也逐渐进入到社会生活的方方面面。

在计算机视觉领域众多的研究热点中，图像场景内容理解是基础且重要的研究问题。场景的内容包含场景的环境、物体、人物等，场景的理解不仅包括对场景内容的识别和理解，还包括对场景内容所蕴含的更深层次信息的理解，例如场景的三维信息、物体或对象的属性信息等。这些更深层次信息的理解，可以为计算机视觉的其他研究热点或者是多学科的交叉应用提供更多的技术支撑。

作者多年从事图像场景内容理解方面的研究工作，总结自己多年科研工作的成果撰写此书。本书围绕图像场景内容理解这个核心，从图像场景的语义理解、图像空间的几何理解、对象级场景解析三个方面详细阐述。从章节结构来说，第1章绪论部分概述了图像场景内容理解的背景与意义以及发展历程；第2章、第3章的内容分别对应场景语义和场景几何的理解，是从场景级图像内容理解入手；在第4章转入对象级图像内容理解；第5章概述了对象级场景理解在人工智能中的应用。在一定程度上来说，场景级图像内容理解是基础，对象级图像内容理解是提升。因此，本书从场景级图像内容理解入手，分析了难点与存在的问题，并给出了自己的解决方法；其后，转为对象级图像内容理解，并分析了场景级与对象级图像内容理解的不同。

本书所介绍的工作得到了国家自然科学基金青年科学基金项目（61502036）、北京市教委科技计划一般项目（KM201611417015）以及北京联合大学科研项目（ZK50202002）的资助。在本书的撰写过程中，作者得到了一些专家的支持，他们对本书提出了宝贵意见，在此表示感谢！本书涉及相关专业背景知识，对于一些专业术语也给出了相应解释。由于水平有限，书中难免存在差错或疏漏，欢迎广大读者批评指正。

作者

2022年1月