1.2 图像复原正则化方法
近十年,有关图像复原的学术研究发展迅速,呈现出百花齐放、百家争鸣的良好局面。美国的加州大学洛杉矶分校[6-8]、莱斯大学[14]、西北大学[9-13]、葡萄牙里斯本工业大学[15]、法国国家科学研究院[16]、新加坡国立大学[17]等相关科研院所均开展了各具特色、富有成效的研究工作。IEEE Computer Society、IEEE Signal Processing Society、Society for Industrial and Applied Mathematics以及其他相关学术组织每年定期召开的图像视频领域的学术会议,都会专题讨论图像复原技术的研究进展,极力推动该领域向前发展。《IEEE Transactions on Pattern Analysis and Machine Intelligence》《International Journal of Computer Vision》《IEEE Transactions on Imaging Processing》和《SIAM Journal on Imaging Sciences》等国际知名期刊每年都会刊载大量有关图像复原基本原理和算法实现的学术论文,探讨其关键技术、具体应用和发展趋势。
在国内,有关图像复原的研究工作发展迅猛,中科院[18,19]、清华大学[20]、北京大学[21]、浙江大学[22]、国防科技大学[23]、南京大学[24]、西安电子科技大学[25-27]、香港中文大学[28-30]等科研院所都积极开展了图像复原方面的研究工作。
1.2.1 图像的退化机制和退化建模
图像模糊是最为典型的一类图像退化现象,故以图像模糊为例说明图像的退化机制和建模过程。造成图像模糊的因素是多方面的,成像系统不完善、对焦不准确、成像设备与场景的相对运动以及大气扰动等,都可能导致图像的模糊,而各种噪声的干扰更是不可避免。图像模糊会造成图像分辨率的显著下降,此时,图像上的每个点都是成像场景中若干个点混合叠加的结果,该过程可以用二维卷积来描述:
(1-1)
其中Ω是二维平面上的有界区域;(x,y)和(a,b)分别表示像平面和物平面上点的坐标;点扩散函数(point spread function,PSF)k(x,y;a,b)表征成像过程中的点扩散性质,又被称为模糊核(blur kernel)或模糊函数;S为一逐点非线性运算;n(x,y)为观测过程中的加性噪声。PSFk(x,y;a,b)一般与成像场景中点的空间位置有关,即它是空间变化的,但对于一大类图像退化过程,可以认为它是空间不变的。成像过程的非线性影响通常可以忽略,这是因为在视觉上,相比于缓慢变化的灰度强度,人眼对边缘等突变信息更为敏感,而多数情况下,成像过程中的非线性因素并不会显著破坏图像的边缘信息。忽略式(1-1)中的非线性因素和突变因素,可以得到图1-1所示的更为常用的线性移不变退化模型:
(1-2)
图1-1 图像的线性移不变退化模型
常见的模糊函数类型[31]有线性运动模糊函数、离焦模糊函数和Gauss模糊函数等,常见的噪声类型[31]包括Gauss噪声、Poisson噪声、脉冲(椒盐)噪声和乘性gamma噪声等。图像复原的任务是由受噪声沾染的观测图像f(a,b)出发,求得关于原始场景的一个估计。如果成像系统的PSF已知,则图像复原为常规反卷积问题,反之,则是一个盲反卷积(blind deconvolution)问题。
直观上看,反卷积可以通过逆滤波来实现。假设加性噪声为gauss白噪声,则逆滤波的表现形式为:
U(μ,ν)=F(μ,ν)/K(μ,ν)(1-3)
其最小二乘意义下的频域表现形式为:
(1-4)
其中U(μ,ν)、K(μ,ν)分别为u(x,y)和k(x,y)的二维Fourier变换,K*(μ,ν)为K(μ,ν)的共轭。然而,由于与K(μ,ν)有关的线性卷积算子的特征值趋于零(文献[32]从紧自共轭算子的角度对其进行了深入分析),即便是在最小二乘意义下,逆滤波仍对高频噪声具有放大作用,这使得其结果无法使用。
实际应用中,等式(1-2)可以离散化为:
(1-5)
其中分别表示原始图像和观测图像,尺寸均为m×n;K为模糊(卷积)矩阵,关于其构造方法,论文第二章有详细阐述;为加性噪声。在本文中,图像均通过辞书排列法写为向量形式,由此,m×n图像矩阵的第(i,j)个元素即为图像向量的第((i-1)n,j)个元素。在公式(1-5)中,若K为已知,则相应的反问题为常规反卷积问题,若K为未知,则相应的反问题为盲反卷积问题。
当K改变形式时,公式(1-5)也可以用来建模其他的图像退化过程。例如若K=P,其中当P为选择矩阵时,即P为元素仅取0或1的对角阵,则公式(1-5)可以描述图像数据的丢失情况,其对应的反问题为图像修补(inpainting)。若K=PF,其中P为选择矩阵而F为Fourier变换矩阵,则公式(1-5)可以用来建模核磁共振成像(magnetic resonance imaging,MRI)过程,其对应的反问题为MRI重建问题,MRI重建是一个典型的压缩感知应用实例。
求解病态的图像复原问题的关键是对其进行正则化,即将关于原始图像的一些先验知识融入图像反问题的求解过程中,并以此抑制噪声,获得具有一定正则性(平滑性)的解。事实上,图像的先验知识即为图像的先验模型,然而,因为图像性质的不同和用途的不同,关于图像模型在学术界并没有一致的结论。Galatsanos和Katsaggelos在文献[33]中采用均方误差(mean square error,MSE)分析的方法证明了正则化能够有效改善图像复原的结果。带有正则化的图像复原问题通常会涉及如下形式的函数(离散情况)或泛函(连续情况)最小化问题:
(1-6)
根据Lagrange原理,其等价的无约束形式为:
(1-7)
其中D(Ku,f)是体现观测数据准确性的保真项,其具体形式取决于观测图像的噪声类型,显然,若无噪声则应有约束Ku=f;J(u)是融入图像先验知识的正则项,它起到噪声抑制、结果平滑和数值稳定的作用;上界c为取决于噪声水平的常数;λ为正则化参数(regularization paramter),它起到平衡正则项与保真项的关键作用。仅当λ取最优值时,解才是最优的。若λ取值过大,则图像中的噪声无法被有效抑制;相反,若λ取值过小,则最终结果无法充分体现观测数据中的有效信息。相对于无约束优化问题式(1-7),约束优化问题式(1-6)更难求解,因此,当前大多数文献都将式(1-7)作为优化目标。
当前,图像处理领域多采用基于变分偏微分方程、小波框架理论、稀疏性理论以及随机场理论的图像模型,它们都有着各自的优缺点和适用场合。下面,对基于这几种模型的正则化方法分别加以论述。
1.2.2 基于变分偏微分方程的正则化方法
基于变分原理的正则化方法建立在经典的泛函理论和变分法的基础上,在该类方法中,图像被视为确定的二维或多维函数。早期的这类图像正则化多基于Tikhonov正则化理论,在该理论中,Tikhonov建议将反卷积的解限制于Sobolev空间Hn或W(n,2),在该空间中,函数本身及其直到n阶导数或偏导数被认为是属于L2(即平方可积)的。依照该理论,在图像复原时,图像的某些偏导数(从0直到l阶)平方的线性组合被用作正则化泛函J(u),它具有如下形式:
(1-8)
其中权值qr为给定的非负常值或连续函数。经典的Wiener滤波和约束最小二乘滤波可以看作是Tikhonov正则化方法的两个特例。尽管Tikhonov正则化可以使得图像复原问题适定(解连续的依赖于观测),但其过强的平滑性(正则性)同样会使图像的边缘等细节信息受到损失。相比于图像等二维或高维信号,Tikhonov正则化理论更适用于一维信号。
针对Tikhonov正则化的不足,非二次的正则化泛函被引入图像复原中,主要有Green方法[34]、Besag方法[35]以及Geman和Yang的半二次正则化方法[36]等。但这类正则化方法具有较强的非线性甚至是非凸的,求解起来比Tikhonov正则化方法要复杂得多,其实际应用受到很大限制。
1992年Rudin等提出了经典的全变差(total variation,TV)模型[6](有些文献也称之为ROF模型),引起了学术界的极大轰动,该模型直至目前仍是最为流行的正则化模型之一,很多工作也致力于TV正则化性质的研究[37-40]。TV范数所诱导的有界变差(bounded variation,BV)空间是比Sobolev空间更为广阔的一类空间。假设Ω为二维平面中的有界开集(通常被假定为Lipschitz域),且二维函数u(x,y)∈L1(Ω),则它的各向同性全变差被定义为:
(1-9)
若TV(u)是有界的,则称u为有界变差,记BV(Ω)为L1(Ω)中的有界变差函数空间。可以证明,BV(Ω)在BV范数
(1-10)
下是完备的线性赋范空间,且该范数要强于l1范数。基于TV的图像复原通常仅使用TV(u)而非BV范数作为正则项,TV(u)在很多场合又被称为TV半范数或TV范数。
相比于Tikhonov正则化,TV正则化有着良好的边缘保持能力,因此,其应用十分广泛。然而TV正则化在实现边缘保持的同时,也引入了两大难题。一方面,TV范数在(0,0)处是不可微的,这使得传统的梯度法不能直接用来求解TV最小化泛函;另一方面,现已证明,TV正则化仅在图像函数为分片常值时才是最优的,而自然图像大都难以满足这一苛刻条件,在信噪比较低的情况下,TV正则化结果的阶梯效应(staircasing effects)会非常严重。阶梯效应使得图像的光滑区域趋于分片常值,伪边缘的引入会严重影响图像的视觉效果[37]。事实上,l1范数的最小化通常会导致解的稀疏性,且这种稀疏性有着十分广泛的应用(如压缩感知和非负矩阵分解),但在这里,它会使得图像的一阶偏导数趋于零。
针对TV正则化易导致阶梯效应的问题,学术界提出了许多基于高阶变分法的正则化方法[41-51],这些方法通过引入图像函数的高阶微分实现了对阶梯效应的抑制。2010年,Bredies等[46]提出了广义全变差(total generalized variation,TGV),对全变差的概念作了进一步的推广,文中还同时证明了TGV相比于TV的若干优良性质。与TV不同,TGV引入了图像函数直到n(n为有限正整数)阶的高阶偏导数。Bredies通过理论分析和仿真实验证明了TGV正则化能使图像在复原过程中趋向于分片n-1阶的二元多项式函数,这使得TV模型的阶梯效应得到有效抑制。当然,对于任何引入高阶偏导数以消除或减轻阶梯效应的做法都是有代价的,这会使得最小化泛函的求解变得更为复杂。Hu等[49,50]近期提出了高阶全变差(higher degree total variation,HDTV)正则化模型,采用了与TGV类似的思想,并取得了相近的效果。
基于偏微分方程(partial differential equation,PDE)的图像复原是基于变分法图像复原的一个自然推广,这源于泛函极值问题往往对应于偏微分方程的求解,而依据变分原理,很多偏微分方程也对应着某个最小化泛函[52]。自20世纪末以来,基于PDE的图像处理开始引起关注,并获得迅速发展。最初的研究基于各向同性扩散PDE,但该方法易导致图像过平滑;此后,Perona和Malik提出了经典的保持边缘的各向异性P-M扩散模型[53],目前,该模型仍被很多文献所采用[54-56];Weickert研究了各向异性非线性扩散理论[57],并基于算子分裂提出了半隐加性迭代算法,提高了PDE的求解效率。当前,PDE作为一种有效工具已成功应用于图像滤波、平滑、复原和分割等领域。PDE方法有着基础理论扎实、自适应性强、细节保持能力强和算法实现灵活等诸多优点[26,58]。当前,基于PDE的图像复原仍然存在诸多问题,如高阶PDE解的存在性和唯一性需要进一步的研究。正是因为PDE的优良特性以及很多尚未解决的关键问题,基于PDE的图像处理在未来很长一段时期内仍将是学术界的研究热点。
1.2.3 基于小波框架理论的正则化方法
能够高效地分辨不同的对象模式是图像和视觉分析的一般要求,小波[59]及其相关技术恰好符合这一要求[37]。作为图像表示的重要手段,小波对图像信息的数学描述十分简洁,且小波存在快速变换,这使得小波框架理论在图像处理领域有着广阔的应用前景。
采用图像的小波框架表示来实现图像复原的正则化显然是可行的,大量的文献对这一课题进行了研究[60-70]。通常,基于小波框架的图像复原问题有三种形式的最小化函数,分别被称之为基于分析的方法、基于合成的方法和均衡正则化方法[67]。其中离散的基于均衡正则化的方法具有如下形式:
(1-11)
其中W为标准的紧框架,即表示图像的一个估计。之所以对系数x的1范数进行约束,是为了保证系数的稀疏性,这一稀疏性约束实际上是从0范数进行凸松弛而得到的。式(1-11)中,若γ=0,则称为基于合成的正则化方法;若γ=+∞,则意味着第二项必须为零才能使得最小化函数有意义,这表明对于某些u,x=WTu是成立的,则式(1-11)又可以写为:
(1-12)
这就是所谓的基于分析的正则化方法。
必须指出的是,经典的小波理论应用于图像处理是有局限性的,这在图像细节信息丰富时尤为突出。尽管小波变换能最优地表征带有“点奇异”的函数类,但它却无法最优地逼近具有“线奇异”的高维数据。不同于一维信号的“点奇异”,自然图像通常具有“线奇异”,如图像中的边缘信息,且这种“线奇异”是后续图像处理中所必需的重要特征。传统小波在方向上的局限性与高维信号中“线奇异”多变的方向是不相符的。
经典小波对于二维或高维信号处理的局限性,推动了所谓“后小波”理论即多尺度几何分析的发展,包括脊波[71](ridgelet)、曲线波[72](curvelet)、梳状波[73](brushlet)、子束波[74](beamlet)、楔形波[75](wedgelet)、轮廓波[76](contourlet)、条带波[77](bandelet)和剪切波[78-83](shearlet)等,它们的方向性要比经典的二维小波强,因此能够更好地建模图像中的边缘和细节信息。有些分析如曲线波和剪切波存在着快速变换,这使得它们可以方便地应用于图像处理的各个环节。关于这些变换理论的性质和各自擅长处理的图像特征,文献[25]中有着详细的总结。近期,一些基于框架理论的图像复原文献采用了这些理论来对目标函数进行正则化[8,83]。
事实上,无论是变分思想的图像建模还是小波框架思想的图像建模,其基本依据都是经典的泛函分析,它们同属于确定性的图像建模方法,两者之间存在着内在的关联性。关于这种内在联系,文献[84]中有着详细的论述和证明。
1.2.4 基于图像稀疏表示的正则化方法
人眼可以通过图像的边缘和纹理等几何特征迅速地对其做出判读,这启示我们图像中真正有用的“特征”数据比原始数据要少得多。目前信号处理和机器学习领域非常热门的稀疏表示(sparse representation)[85,86]正是利用了数据的稀疏性。如果信号具有稀疏性,则它可通过某组过完备基或字典中的少数几个元素进行有效逼近。令为过完备字典,y为待表示的有用信号,称x*是y在W下的最稀疏表征,则应有:
(1-13)
其中表示x中非零元素的数目(通常会有)。
进行稀疏表示的过完备基可以是确定的,如前一小节中所述的小波框架(从这一角度讲,基于小波框架的图像正则化可以看作基于稀疏表示正则化的一个特例),也可以是通过机器学习得到的,如通常所讲的基于学习字典[87-89]的图像正则化。
在某些实际应用中,如视频处理,数据表示可能更适合采用矩阵甚至是张量。那么,是否可以通过度量矩阵或张量的稀疏性来实现正则化呢?最近机器学习领域极为火热的低秩分解[90-98]为矩阵正则化提供了好的思路。事实上,秩是矩阵数据稀疏性的一个自然度量[95]。近几年,基于低秩分解的正则化被广泛用于图像复原[96]、图像分割[97]和医学图像重建[98]等图像反问题中。以图像去噪为例,常用的低秩分解模型有两种[95,96]:鲁棒主元分析(roblust principle component analysis,RPCA)和Go Decomposition(GoDec)。基于RPCA的稀疏大噪声去噪有最小化函数:
(1-14)
其中D表示观测图像,A表示待复原的低秩图像,E则用来建模稀疏的大噪声。该模型较适合于非Gauss稀疏噪声条件下的图像复原。而对于稠密的Gauss噪声(即每个图像矩阵元素都可能是噪声)的去除,该模型变得不再适用。针对非稀疏噪声,GoDec方法则通过增加一个代表噪声的分解项实现降噪,即假设D=A+E+G,其中G代表非稀疏噪声。
上述低秩模型均含有零范数的极小化,这是一个典型的NP难优化问题。为简化计算,通常将目标函数松弛为某些凸函数。为尽可能地接近原问题的解,通常选取凸函数为目标函数的凸包络(convex envelope),即不超过目标函数的最大凸函数。现已证明,矩阵的核范数,即奇异值之和,是秩函数在矩阵谱范数单位球上的凸包络;向量的1范数,即元素的绝对值之和,则是其0范数在∞范数单位球上的凸包络[95]。利用这两个结论进行凸松弛后,最小化函数(1-14)可写为:
(1-15)
该类型的最小化函数可以通过下述的一些算子分裂方法方便地进行求解。
1.2.5 基于随机场的正则化方法
图像细节信息和噪声的统计特性存在差异,尤其是图像的纹理细节,通常具有很强的关联性。因此,对于一幅被噪声沾染的图像,人眼仍可以大致地区分它们。将图像建模为随机场,则可以按照概率统计中的一般策略,如最大后验、极大似然或Bayes原理来对图像概率分布模型的统计参数进行估计。
Gauss模型是最早用来建模图像的随机模型。事实上,这一模型并未区分开图像和噪声的统计特性,将它作为先验模型来使用,则图像复原的极大似然估计恰好为最小二乘逆滤波估计,显然,它无法有效抑制噪声[32]。
建立反映成像机制的图像模型更有助于图像复原、分割和识别等任务的完成,这也是图像建模的一个发展方向。更合理的图像概率分布模型应该根据研究对象的不同来建立。当某种粒子事件存在于成像过程中时,图像灰度值通常具有Poisson分布的性质,这时,图像常用Poisson随机场来建模(或将噪声视为Poisson模型)[99,100],如医学CT图像等。
图像的Markov随机场(Markov random field,MRF)模型(与Gibbs随机场等价)[101,102]是一种应用十分广泛的随机建模方法,它为图像估计提供了一个Bayes框架,由于可以细致地反映图像的局部(邻域)统计特性,该方法可用于点扩散函数空间变化或噪声非平稳的情况。
相比于确定性的建模方法,图像的随机场建模尤其是基于邻域的建模,是一种更为精细的建模方法,这种建模方法对于不同的图像类型具有更好的适应性,因而,基于随机场的建模在图像处理领域中有着广阔的应用前景。但同时,这种精细的建模方法又使得模型相比于确定性模型更为复杂,对求解算法和计算机性能都会有更高的要求,且模型的参数估计也成为新的问题。
应用最为广泛的Markov随机场是Gauss-Markov随机场,结合Bayes方法,该模型在盲图像复原[103]以及高光谱图像的超分辨率重建[104]方面取得了较好的效果,然而,很多情况下该模型中的Gauss假设会导致图像的过平滑。近些年一些文献采用students-t分布[105]等非Gauss分布来描述图像的统计特性,但相对复杂的模型又使得贝叶斯估计的后验分布没有闭合形式的解,这使得传统的EM算法无法应用,造成了计算上的极大困难。
将图像的MRF模型与变分先验假设相结合的变分Bayes方法是图像复原领域的一个较新的研究热点,Katsaggelos团队在该框架下开展了众多图像常规复原和盲复原的研究[106-111],并得出了较为满意的结果,在很大程度上克服了随机场建模过于精细、难于求解的问题,为基于随机场正则化的图像复原研究提供了很好的借鉴。
复合正则化是当前研究的一个热点,通过有机结合不同先验知识的优点,该策略可能得到效果更好的图像复原结果[112]。盲复原问题是更加病态的,按照是否预先估计模糊核,可将其分为两类,一类是预先估计模糊核,再采用常规方法复原原始图像[113];另一类则同时估计模糊核和原始图像[103]。第二类的目标函数通常是非凸的,这种情况下则需要更多的图像先验知识来使问题变得可解,所涉及的函数极小化问题通常是复合正则化问题。