3.2 深度图
计算机视觉技术基于客观场景的图像,获取客观世界的完整信息是非常重要的。前文提到,在将3D场景向2D平面投影时,深度(或距离)信息会丢失(有信息损失)。为了获得场景的完整信息,需要恢复深度信息。
3.2.1 深度图和灰度图像
在深度图的表示中,z=f(x,y)不仅反映了物体的深度信息z,也反映了在各深度上的平面信息(x,y)。利用深度图可方便地得到物体的几何形状和空间关系。
❑ 例3-1 深度图与灰度图像的区别
考虑图3-1中物体上的一个剖面,可以分别采集该剖面的灰度图像和深度图。对于灰度图像,其属性值对应(x,y)处的灰度(亮度);对于深度图,其属性值对应(x,y)处与成像设备之间的距离(深度)。
灰度图像和深度图相比,有如下两个区别:
(1)在深度图中,对应物体上同一外平面(该平面相对于像平面倾斜)的像素值按一定的变化率变化,随物体形状和朝向变化,但与外部光照条件无关;在灰度图像中,对应的像素值既取决于表面的照度(不仅与物体形状和朝向有关,还与外部光照条件有关),也取决于表面的反射系数。
(2)深度图中的边界线有两种,一种是物体和背景之间(距离上)的阶跃边缘(深度不连续),另一种是物体内部各区域相交处的屋脊状边缘(对应极值,深度是连续的);灰度图像中的边界线则均为阶跃边缘,如图3-1亮度曲线中的两个台阶所示。
图3-1 深度图与灰度图像的区别
3.2.2 本征图像和非本征图像
进一步分析和对比灰度图像和深度图,可知它们是两类图像的典型代表。这两类图像就是本征图像和非本征图像,这是根据图像所描述的客观场景的性质来区分的。
图像是由观察者或采集器获取的关于场景的影像。场景和物体具有一些与观察者和采集器本身性质无关且客观存在的特性,如场景中各物体的表面反射率、透明度、表面指向、运动速度及各物体之间的相对距离、在空间中的方位等,这些特性称为(场景的)本征特性,表示这些本征特性的图像称为本征图像。本征图像的种类很多,一个本征图像可以仅表示场景的一种本征特性,不掺杂其他特性的影响。本征图像对于正确解释图像所代表的场景非常有用。例如,深度图就是一种最常用的本征图像,其中每个像素值都代表该像素所表示的空间点与摄像机之间的距离(深度,也称为物体的高程),这些像素值实际上直接反映了物体可见表面的形状(本征性质):第4章介绍了图像的运动矢量场表达方法,如果将那些运动矢量的值直接转化为幅度值,得到的就是表示物体运动速度的本征图像。
非本征图像所表示的物理量不仅与场景自身有关,而且与观察者/采集器的性质、图像采集的条件或周围环境等有关。非本征图像的一个典型代表是常见的强度图或幅度图(亮度图或照度图),一般表示为灰度图像。强度图是反映观察处接收到的辐射强度的图,其强度值常常是辐射源的强度、辐射方式/方位、物体表面的反射性质、采集器的位置性能等多个因素综合作用的结果(进一步讨论可见第7章)。
在计算机视觉中,许多采集到的图像是非本征图像,而要感知世界,就需要场景的本征特性。换句话说,需要先获得本征图像才可以进一步解释场景。为从非本征图像中恢复场景的本征性质和结构,常常需要用到各种图像(预)处理手段。例如,在灰度图像的成像过程中,许多有关场景的物理信息混合集成在像素灰度中,所以成像过程可看作一个退化变换。但这些有关场景的物理信息在混入灰度图像后并没有完全丢失,利用各种预处理技术(如滤波、边缘检测、距离变换等),可借助图像中的冗余信息消除成像过程中的退化(也就是对成像过程的变换求“逆”),从而把图像转换成反映场景空间性质的本征图像。
从图像采集的角度来说,要获得本征图像有两种方法:一种是先采集含有本征信息的非本征图像,再通过图像处理手段恢复本征特性;另一种是直接采集含有本征信息的本征图像。以获得深度图为例,可以用特定的设备直接采集深度图(如3.3节的直接深度成像),也可以先采集含有立体信息的灰度图像,再从中获取深度信息(如3.4节的双目立体成像)。对于前一种方法,需要使用一些特定的图像采集设备(成像装置);而对于后一种方法,需要考虑采用一些特定的图像采集方式(成像方式)和使用一些有针对性的图像技术。
3.2.3 深度成像方式
要获得含有本征特性的深度图,可从两个方面着手,一方面可使用具有相应能力的采集装置,另一方面可采用特定的采集方法和方式。
深度成像的方式很多,主要由光源、采集器和物体三者的相互位置和运动情况决定。常见成像方式的特点如表3-1中所示,其概括了一些常见的深度成像方式中光源、采集器和物体的特点。
表3-1 常见成像方式的特点
最基本的成像方式是单目成像,即用一个采集器在固定位置获取场景图像。虽然如《2D计算机视觉:原理、算法及应用》第2章中讨论的那样,由像点(x,y)并不能唯一确定3D点的Z坐标,即有关物体的深度信息没有直接反映在图像中,但这些信息其实隐含在所成图像的几何畸变、明暗度(阴影)、纹理变化、表面轮廓等因素中(第7章和第8章将介绍如何从这样的图像中恢复深度信息)。
如果用两个采集器分别在不同位置对同一个场景取像(也可用一个采集器在两个位置先后对同一场景取像或用一个采集器借助光学成像系统获得两幅图像),就是双目成像(见2.4节和第6章)。此时两幅图像间(类似人眼)的视差可用来求取采集器与物体之间的距离。如果用多于两个的采集器在不同位置对同一场景取像(也可用一个采集器在多个位置先后对同一场景取像),就是多目成像。单目、双目或多目成像方式除可以获得静止图像外,也可以通过连续拍摄获得序列图像。单目成像与双目成像相比,采集设备简单,但从中获取深度信息要更复杂;反之,双目成像提高了采集设备的复杂度,但可降低获取深度信息的复杂性。
在以上讨论中,我们认为几种成像方式中的光源都是固定的。如果使采集器相对于物体固定而使光源绕物体移动,这种成像方式就称为光度立体成像(也称为光移成像)。由于同一物体表面在不同光照情况下亮度不同,所以由多幅这样的图像就可求得物体的表面朝向,但不能得到绝对的深度信息。如果保持光源固定而让采集器运动跟踪物体或让采集器和物体同时运动,就构成主动视觉成像(参照人类视觉的主动性,即人会根据观察的需要移动身体或头部以改变视角并有选择地对部分物体特别关注),其中后一种又称为主动视觉自运动成像。
另外,如果用可控的光源照射物体,通过采集到的投影模式来解释物体的表面形状,就是结构光成像(见3.3节)。在这种方式中,可以将光源和采集器固定而使物体转动,也可以将物体固定而将光源和采集器一起绕着物体转动。