中国教育电视台
北京大学计算机科学技术研究所
随着多媒体技术和计算机网络的迅猛发展,图像和视频作为一种重要的多媒体信息载体形式在实际生活中得到越来越广泛的应用。多样化的图像和视频多媒体应用催生了多元化和个性化的图像采集与显示设备。例如,在视频监控领域,密集型低分辨率视频监控得到了大量应用;在多媒体通讯领域,随着Web2.0的兴起,集成了摄像头的手机、PDA等个人手持终端所采集的低质量小尺寸的图像和视频逐渐成为一种重要的信息来源;在数字家庭娱乐方面,高清电视正在逐渐取代传统的标清电视设备成为大众的主流选择。在这些不同的多媒体应用中,多数都面临着同样的一个问题:如何从质量不高、分辨率较低的图像信号转换到具有较好质量、更高分辨率的图像信号以满足获取高分辨率显示的潜在需求。
中国教育电视台的基于教育“新媒体”学习超市全民学习平台—果实网中,为了适应视频信号在不同终端上的无缝链接发布,使用了图像分辨率增强技术,本文对图像分辨率增强技术进行简要地介绍。
一.图像分辨率增强的必要性
在数字图像的采集与处理过程中,存在着许多因素导致图像分辨率的下降。例如光学成像系统中由于受到光学衍射的影响导致高频信息丢失,导致图像发生模糊。此外,在成像、传输和存储过程中,会引入不同类型的噪声,也会直接影响图像分辨率的下降。从应用需求的角度来看,消费者对具有高分辨率的清晰图像有着较大的需求。例如,将家用照相机中拍摄相片的分辨率放大用来大尺寸的高清打印,视频监控录像中对感兴趣区域的放大显示等。因此,对于具有较高分辨率需求的应用场合,亟需寻求更多有效的方法来突破当前成像系统的分辨率极限限制以及消除图像在采集和传输过程中的图像降质,获得更高分辨率的图像。
提高图像分辨率的较为直接的方法是改进传感器制作工艺,减少像素的大小,从而实现空间分辨率的增强(即增加每单位面积内的像素个数),但由于减少了有效采光的能力而容易产生散粒效应从而严重地降低图像质量。此外,传感器的制造工艺已经几乎达到了极限,例如在0.35μm的CMOS水平下,一个像素的面积为40μm2,已经难以进一步减小。最后,以硬件升级方式提高图像空间分辨率的做法其技术成本十分昂贵,极大地限制了该方法在实际情况中的应用。
因此,基于信号处理的软件技术来提高图像空间分辨率的技术得到了广泛地研究。这种技术被称作是分辨率增强(Resolution enhancement, RE)或超分辨率图像重建(Super resolution reconstruction, SRR)。图像分辨率增强是目前信号处理领域中最为活跃的研究方向之一。它通过将输入的低分辨率图像中的高频细节复原,产生一幅接近退化前的理想高分辨率图像,从而达到提高图像分辨率的目标。这种方法的优点是不涉及硬件,成本相对较低,并且可以在诸多应用中重复再利用已有成像系统,因此是一种较为经济的过渡方案。
二.分辨率增强方法分类
分辨率增强是一种将输入的低分辨率图像(或图像序列)进行处理,已获得具有更高分辨率大小的图像输出的软件技术。由于输入的低分辨率图像(图像序列)中已经丢失了所要恢复的高分辨率图像中的大部分高频信息,因此为了进行分辨率增强处理,需要对丢失的高频细节信息进行合理的建模和预测。预测高频细节的信息来源主要包括三个方面,分别是高分辨率图像特征的先验知识、具有互补信息的低分辨率图像序列以及通过大量样本学习得到的具有高-低分辨率图像特征间对应关系的数据库,如图1所示。根据这三个方面的信息来源,可以将图像分辨率增强方法大致分为三类,分别为基于插值的方法、基于多帧图像融合的方法和基于学习的方法。

图 1 图像分辨率增强中的高频预测信息的主要来源
三.基于插值的分辨率增强
基于插值的分辨率增强方法通常在无法获得更多关于高分辨率图像高频细节信息的情况下,利用已知的图像先验知识(如图像平滑性、边缘方向连续性等)对高分辨率图像中未知像素点进行估计重建。在这个过程中,主要采用的技术手段是图像插值,相关方法可以大致分为传统插值方法和边缘自适应插值方法两类。
1.传统插值方法
传统插值方法认为图像在二维平面空间内具有高阶连续性,因而可以根据已有低分辨率图像的离散规则采样点对未知高分辨率像素点的值进行预测(也可理解为先重建为连续平滑信号,再进行重采样的过程)。常见的方法包括最近邻插值,线性插值和三次卷积插值等。传统插值方法可以看作是基于核函数(也可称作基函数)的插值方法,通过选取不同的核函数形式,可以实现不同的传统插值方法。传统插值方法在进行图像放大时通常会在边缘处产生锯齿、模糊和振铃效应。但由于其计算复杂度较低,在实际应用中也得到了广泛的应用。
2.自适应插值方法
人类视觉系统对于边缘特征上所产生的图像瑕疵十分敏感。因此,降低和消除插值图像的视觉瑕疵并较好地保持图像边缘特征对图像插值方法十分重要。针对传统插值方法的问题,一些空间自适应的插值算法被相继提出。这些算法根据图像局部特征对插值系数进行自适应调整以更好地匹配图像边缘结构。根据获取边缘特征信息的方式,可以将这些算法分为显式和隐式两类方法。
显式方法的基本思想是将图像的边缘特征显式地表达出来,引导插值过程沿着边缘方向取得较好的效果[1,2]。显示提取的边缘特征包括边缘图、等照度线和纹理方向图等。对于理想边缘特征,由于边缘方向信息的检测十分准确,显式方法可以取得较好的插值效果。但在实际应用中,低分辨率图像通常受到噪声、模糊等多种降质效应的干扰,因此对高分辨率图像边缘特征信息的检测和提取是一项较为困难的工作。
隐式方法可以较好地克服上述显式方法的问题。其基本思想是对局部图像邻域内统计量进行估计,该统计量隐式地包含有边缘特征信息,从而利用该统计量对图像插值系数进行自适应调整。代表性方法包括基于马尔科夫随机场的方法[3]和基于协方差的方法[4]等。
3.基于插值方法的局限性
如前所述,基于插值的方法在进行分辨率增强的过程中,由于所能获取的信息或者计算复杂度要求所限,仅能够依靠一些高分辨率图像通用先验模型来引导插值过程完成分辨率的转换,因此在恢复图像的高频细节的性能表现方面,往往不能取得较为满意的效果,尤其是当图像放大倍数较大(例如四倍放大)时容易产生过于模糊和平滑的现象。为了实现更好的分辨率增强效果,需要提供更多的额外信息来指导高频细节的预测和建模,这方面的工作将在后续章节中进行介绍,主要包括基于多帧图像融合的方法和基于学习的方法两大类。
四.基于多帧图像融合的分辨率增强
基于多帧图像融合的方法的技术思路是将输入低分辨率图像序列所包含的互补信息进行融合,从而恢复得到高分辨率图像中所应包含的高频细节信息。基于多帧图像融合的超分辨率重建的基本框图如图2所示,从图中可以看出,基于多帧图像融合的方法能够成功的一个基本前提是可以获得关于相同场景的不同角度或不同时刻的序列图像。这些低分辨率图像间具有亚像素尺度的偏移,从而为实现分辨率增强(高频信息预测)提供了可能。从处理的对象域上可以将基于多帧融合的方法分为频域处理方法和空域处理方法两大类。

图 2 基于多帧图像融合的方法示意图
频域方法最早是由Tsai和Thomas Huang[5]于1984年提出,其基本思想是将低分辨率图像的离散傅里叶变换(DFTs)与待估计的高分辨率图像的连续傅里叶变换(CFT)的系数进行关联,在假设所要估计的高分辨率图像为带限信号的情况下,根据傅里叶变换的平移特性以及CFT和DFTs之间的频谱混叠关系建立一个联立的系统方程进行求解,最终求得CFT系数,通过反变换得到高分辨率图像信号。频域方法理论直观简单,可并行加速计算,但是仅能处理图像间具有全局平移运动和线性空间不变模糊的情况。
空域方法是在图像空间域进行处理的算法。相比频域方法,空域方法具有较好的灵活性和适应性。最重要的一点是空域方法可以结合较好的空域图像先验知识来对图像重建的结果进行约束和增强。代表性的方法包括非均匀插值,迭代反向投影法,凸集投影法(POCS)[6]和基于最大后验估计法(MAP)[7]等。由于处理的图像信号维度往往较大,因此在具体求解过程中,空域方法的计算复杂度相对较高。
五.基于学习的分辨率增强
近年来,基于模式匹配和机器学习的图像分辨率增强方法逐渐兴起,得到较为广泛地关注。基于学习的方法的提出主要是针对输入信息十分有限的情况下(甚至仅有一张低分辨率图像作为输入)来获得较为理想的高分辨率图像,取得分辨率增强的效果。在这种情况下,上述基于多帧图像融合的方法的性能迅速下降,尤其是在图像放大倍数较大的情况下。而基于学习的方法则充分利用了自然图像中包含着大量的重复和冗余结构这一重要的特性,利用学习的手段来捕获不同分辨率间的特征对应关系,从而能够根据输入的中低频信息通过模式匹配搜索的方式来寻找到最佳的高频信息预测。基于学习的方法的基本框架图如图3所示。

图 3 基于学习的方法的基本框架
基于学习的分辨率增强方法最早由Freeman等人[8]提出。在Freeman等人的方法中,由于直接根据图像块间的相似匹配来进行细节复原,因此需要提供足够大的样本集来保证这种相似匹配关系的存在性。随后,常虹等人[9]借鉴了机器学习领域的邻域嵌入思想,提出了一种简单有效的方法,极大地降低了对样本集容量的需求。这种方法认为图像块在其特征空间上的局部邻域关系在不同分辨率层次上保持一致。因此通过找到低分辨率图像块间的邻域关系,将其映射至高分辨率图像块间,通过线性组合来得到高分辨率图像。近年来,信号的稀疏冗余表示理论取得了较大的进展。Yang等人[10]将信号稀疏表示理论引入到图像分辨率增强领域中,取得了较好的效果。根据压缩感知理论,Yang等人认为高分辨率图像块可以较为稀疏地由一组预先训练好的冗余字典中的元素通过线性组合进行重建,而这个元素间的线性关系可以较好地由低分辨率图像块和对应的字典进行恢复。
总体来讲,基于学习的方法的优势主要在于计算速度较快,但也有其自身的缺点,例如图像放大倍数与图像数据库的训练过程相对应,无法自适应地改变。此外, 基于学习的方法十分依赖样本库的选择, 目前还没有相关理论来进行指导。
六.结束语
图像分辨率增强技术提供了一种从低分辨率图像源到高分辨率输出的转换方案。目前,图像分辨率增强技术的应用十分广泛,在医学成像、卫星成像以及视频监控领域中均发挥着十分重要的作用。而在新一代的视频编码标准研究中,分辨率增强技术已经开始成为编码器中重要的一个部分。同时,图像分辨率增强技术仍存在着许多需要解决的问题,对图像分辨率增强技术的进一步研究必将导致这一理论和技术扩宽到更多的新的应用领域,为图像分辨率增强技术研究带来新的活力与挑战。B&P
参考文献
[1] K. Jensen, D. Anastassiou. Subpixel edge localization and the interpolation of still images[J]. IEEE Trans Image Processing. mar. 1995, 4(3):285-295
[2] Xiaolin Wu, Xiangjun Zhang. Image interpolation using texture orientation map and kernel Fisher discriminant[C]. Image Processing, 2005. ICIP 2005. IEEE International Conference on. 2005, vol. 1, I-49-52
[3] Min Li, T.Q. Nguyen. Markov Random Field Model-Based Edge-Directed Image Interpolation[J]. IEEE Trans Image Processing. july 2008, 17(7):1121-1128
[4] Xin Li, M.T. Orchard. New edge-directed interpolation[J]. IEEE Trans Image Processing. Oct 2001, 10(10):1521-1527
[5] R. Y. Tsai, T. S. Huang. Multiframe image restoration and registration[J]. Adv Comput Vis Image Process. 1984, 1:317-339
[6] Henry Stark, Peyma Oskoui. High-resolution image recovery from image-plane arrays, using convex projections[J]. J Opt Soc Am A. 1989, 6(11):1715-1726
[7] R.R. Schultz, R.L. Stevenson. Extraction of high-resolution frames from video sequences[J]. IEEE Trans Image Processing. jun 1996, 5(6):996 -1011
[8] W.T. Freeman, E.C. Pasztor. Learning low-level vision[C]. Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on. 1999, vol. 2, 1182-1189 vol.2
[9] Hong Chang, Dit-Yan Yeung, Yimin Xiong. Super-resolution through neighbor embedding[C]. Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. 2004, vol. 1, I-275-I-282 Vol.1
[10] J. Yang, J. Wright, T. Huang, Y. Ma. Image Super-Resolution via Sparse Representation[J]. IEEE Trans Image Processing. 2010.