国家标准AVS视频编码技术介绍

2006-05-29 AVS标准工作组依马狮网

一. AVS视频介绍
AVS是指由国家信息产业部科学技术司于2002年6月批准成立的数字音视频编解码技术标准工作组所制定的标准。目前，AVS标准中涉及视频压缩编码的有两个独立的部分：AVS第二部分（AVS1-P2），主要针对高清晰度数字电视广播和高密度存储媒体应用；AVS第七部分（AVS1-P7），主要针对低码率、低复杂度、较低图像分辨率的移动媒体应用。AVS1-P2《信息技术先进音视频编码第2部分：视频》已经获得国家标准化管理委员会批准，国家标准号GB/T 20090.2-2006，于2006年3月1日起实施。
本文分析了AVS视频的主要技术特征以及它们的性能和复杂度。

二. AVS1-P2概述
1.系统结构
AVS1-P2是基于空间和时间的预测和补偿、空域的变换和基于统计的熵编码的混合编码。系统结构如图1所示。码流结构语法层次从高到低依次为：序列，图像，条带，宏块，块。图像类型有I，P，B三种。宏块有帧内预测和帧间预测两大类。块，是空间预测补偿、时间预测补偿和空间变换的单元。在AVS1-P2中，块大小为8×8像素。

    在传统的MPEG-1，MPEG-2，MPEG-4第二部分，H.261，H.263等标准中变换单元均为8×8像素块，而运动补偿为16×16、16×8或8×8。而在MPEG-4 AVC/H.264标准中，预测补偿和变换的最小单元都是4×4像素块。容易理解的是，块的尺寸越小，帧内和帧间的预测越准确，预测的残差越小，便于提高压缩效率；但同时更多的运动矢量和帧内预测模式等附加信息的传递将花费更多的比特。实验表明，在高分辨率情况下，8×8块的性能比4×4块更优，因此AVS1-P2的块尺寸固定为8×8。总体来讲，8×8的ICT比4个4×4的ICT的计算复杂度略高一些，但8×8运动补偿，运动估计和环路滤波的复杂度较之4×4要大为降低。
    目前，AVS1-P2已定义了一个档次（Profile），即基准档次。这个档次又分为4个级别，用于标清的4.0（4:2:0）级别和4.2（4:2:2）级别，以及用于高清的6.0（4:2:0）级别和6.2（4:2:2）级别。
    2.主要技术
    ·变换量化
AVS1-P2采用8×8二维整数余弦变换（Integer Cosine Transform，ICT），其性能接近8×8DCT，但精确定义到每一位的运算避免了不同反变换之间的失配。ICT可用加法和移位直接实现。JM9.3上的实验结果表明AVS1-P2的变换相对于H.264 High Profile的8×8ICT有0.05dB的PSNR增益。
    由于采用ICT，各变换基矢量的模大小不一，因此必须对变换系数进行不同程度的缩放以达到归一化。为了减少乘法的次数，MPEG-4 AVC/H.264中将正向缩放和量化结合在一起操作；反向缩放和反量化结合在一起操作。图2是MPEG-4 AVC/H.264中ICT和量化实现的框图。在AVS中，采用带PIT（Pre-Scaled Integer Transform）的8×8整数余弦变换技术（如图2）。即正向缩放、量化、反向缩放结合在一起，而解码端只进行反量化、不再需要反缩放。由于AVS1-P2中采用总共64级近似8阶非完全周期性的量化，PIT的使用可以使编、解码端节省存储与运算开销，而性能上又不会受影响。

    AVS的8×8变换量化可在16位处理器上无失配地实现。
    ·帧内预测
    AVS1-P2采用基于8×8块的帧内预测。亮度和色度帧内预测分别有5种和4种模式。相邻已解码块在环路滤波前的重建像素值用来给当前块作参考。
    与MPEG-4 AVC/H.264的4×4块的帧内预测相比，大的预测块将增加待预测样本和参考样本间的距离，从而减弱相关性，降低预测精确度。因此在AVS1-P2的DC模式，Diagonal Down Left模式和Diagonal Down Right模式中先用3抽头低通滤波器（1，2，1）对参考样本滤波。另外，在AVS1-P2的DC模式中，每个像素值由水平和垂直位置的相应参考像素值来预测，所以每个像素的预测值都可能不同。这种DC预测较之H.264中的DC预测更精确，这对于较大的8×8块尺寸来讲更有意义。RM4.0（AVS1-P2的参考软件）上的实验表明，AVS采用5种模式仅比MPEG-4 AVC/H.264采用9种模式损失0.05dB的PSNR。
    ·帧间预测
    AVS1-P2支持P帧和B帧两种帧间预测图像。P帧至多采用2个前向参考帧；B帧采用前、后各一个参考帧。与MPEG-4 AVC/H.264的多参考帧相比，AVS1-P2在不增加存储、数据带宽等资源的情况下，尽可能地发挥现有资源的作用，提高压缩性能。
帧间预测中每个宏块的划分有4种类型：16×16、16×8、8×16和8×8。
    P帧有5种预测模式：P_Skip（16×16）、P_16×16、P_16×8、P_8×16和P_8×8。对于后4种预测模式的P帧，每个宏块由2个候选参考帧中的1个来预测，候选参考帧为最近解码的I或P帧。对于后4种预测模式的P场，每个宏块由最近解码的4个场来预测。
    双向预测有两种模式：对称模式和直接模式。在对称模式中，每个宏块只需传送一个前向运动矢量，后向运动矢量由前向运动矢量通过一定的对称规则获得，从而节省后向运动矢量的编码开销。在直接模式中，前向和后向运动矢量都是由后向参考图像中的相应位置块的运动矢量获得，无需传输运动矢量，因此也节省了运动矢量的编码开销[7]。这两种双向预测模式充分利用了连续图像的运动连续性。
    ·亚像素插值
    AVS1-P2帧间预测与补偿中，亮度和色度的运动矢量精度分别为1/4和1/8像素，因此需要相应的亚像素插值。
    亮度亚像素插值分成1/2和1/4像素插值两步。1/2像素插值用4抽头滤波器H1（-1/8，5/8，5/8，-1/8）。1/4像素插值分两种情况：8个一维1/4像素位置用4抽头滤波器H2（1/16，7/16，7/16，1/16）；另外4个二维1/4像素位置用双线性滤波器H3（1/2，1/2）。
    与MPEG-4 AVC/H.264的亚像素插值相比，AVS1-P2的数据带宽减小11％，而计算复杂度没有提高。此插值方法在高清序列上略有增益。
    ·环路滤波
    基于块的编码有一个显著特性就是重建图像存在块效应。采用环路滤波去除块效应，可以提高图像的主观质量和压缩效率。
    AVS1-P2采用自适应环路滤波，即根据块边界两侧的块类型先确定块边界强度（Boundary strength，Bs）值，然后对不同的Bs值采取不同的滤波策略。帧内块滤波最强，非连续运动补偿的帧间块滤波较弱，而连续性较好的块之间不滤波。因此，Bs可取3个不同值。若边界两边的两个块中有一个块是帧内编码的，Bs等于2；若两个相邻块的参考帧相同并且两个运动矢量的差值小于一个整像素，Bs等于0；否则，Bs等于1。Bs等于0，不滤波。Bs等于1和2分别采取不同的滤波强度进行一定程度的滤波。对于每条边界，滤波最多涉及6个像素，被修改的像素最多4个。
    由于AVS1-P2变换和最小预测块大小都是