电视台新媒体内容准备暨应用技术探讨

2010-02-25 依马狮广电网

张承阳
辽宁电视台

    新媒体平台包括Web TV、手机电视、IPTV、VoD以及新兴的Apple iTunes、YouTube等媒体终端，“新”是指相对传统的电视平台，受众获取信息的平台扩展到网络、手机等新型载体。与过去相比，首先是受众对内容的需求增多和及时性渴望催生了新媒体市场；其次，互联网与通信网的普及使新媒体传输成为最便利的载体；最后，数字内容技术的发展使二者的结合成为可能。技术—归根到底服务于应用，所以“内容为王”成为永久的市场方向标。
作为技术人，不敢妄论“内容”的宏观市场体系，仅就我从事的技术角度，浅谈如何在技术层面为新媒体平台提供服务，与各位技术专家一起探讨。
    电视台内容现状
    目前电视台制作、播出基本上都实行了数字化。基本流程为：将拍摄内容采集为MPEG-2  I帧进入制作网；制作完成后封装MPEG-2  IBP到播出网络；对卫星和有线传输则是复用封装MPEG-2  TS再进行调制。采用MPEG-2的统一编码格式，其优势是可资源共享并避免转换带来的质损风险。
    每套制播网络，都有媒资系统基于SAN或IPSAN共享存储将内容统一进行管理和分发。在中国，电视台因其特殊使命，“资产”—即内容，目前仍然是一大优势。如何将资产及时再利用于网络、手机等新媒体平台，则是摆在广电人面前新的挑战和机遇：首要的技术问题是转码参数的设置优化，进而是基于转码的工作流集成。

一. 编码技术参数概念
    了解编码参数特征对平台成功运营至关重要。在选择数字视频系统的编解码时要考虑的主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境（速度、时延、错误特征）以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍，不同压缩标准以不同方式处理这些问题的权衡。专业编码器往往有几十个参数供编码参数。参数以Filter（滤镜）方式呈现，你可以添加一个或多个Filter来调整你的目的格式。以下做几个易混淆且必须用到的概念陈述：

    Codec（编解码）格式和封装格式
    这是易混淆的一个概念。Codec是指进行数字压缩时编码和解码的算法，常见的如视频MPEG-1/2/4、H.264、H.263、AVS，音频AAC、MPEG-1 layer-2、Dolby等。而封装格式则包含用某种Codec编码的视音频文件，它可以包含多个不同分辨率、带宽、语言的媒体轨，比如编辑中常用的AVI、QuickTime格式，有时候也把封装称为“容器”。混淆的后果是，也许你的设备支持某个文件格式的转码，但实际上它不支持包含的Codec。

    编码时的色彩空间
    描绘数字图像最基本的方法是RGB（红绿蓝）色彩空间，这是大多数计算机屏幕存储和显示的色彩。不幸的是，大多数视频Codec不是用RGB描述而是用YUV（将RGB转换为Y亮度分量与R-Y、B-Y色差分量信号）。因以下问题会导致编码文件有时会因RGB-YUV的转换带来色彩和亮度偏差：一是在ITU（国际电联）规定的 YUV中色阶（亮度16-235，色度16-240）与实际的RGB采用的0-255全色阶不同，二是在RGB-YUV转换中转换系数比之后的数值或许超出0-255范围而被舍弃；另一个问题是YUV互转换（HD和SD），ITU Rec.709（HD）与ITU Rec.601（SD）色阶虽然没有不同，但转换系数却不一致，会导致转换后的色彩略有偏差。一些源文件或编码器会带有RGB选项参数，在转换时使用RGB作为中间格式是个好主意。

    上场和下场
    在数字视频中，隔行扫描中的上场和下场（或叫Top Field和Bottom Field）中，只有一个场是主导场，它包含了主要的数据，在播放时应该总是应该先播放主导场。播放时，你必须告诉解码器是上场先还是下场先，否则它将无法知道主导场在上场还是下场。实际转码中最好将主导场资源保持一致。下面是几种电视台资源里常用编辑格式的正常主导场：

    隔行与逐行转换
    许多视频源是从逐行扫描的电影转换而来，转换时一帧电影可能被取样几次来生成视频场（Telecine）。对NTSC资源，典型地是从连续的2帧中捕获3场，称为3-2 pulldown；而对PAL 2-2则是正常的。隔行-隔行资源转换（如NTSC-PAL）图像最佳化的编码方式是：首先将隔行资源消行为两倍帧率的逐行（如30i-60p），再转换成隔行输出，你可以同时激活消行和帧率两个参数同时完成。计算机、手机和iPod等移动设备采用逐行扫描的方式，所以内容以这些设备为终端时，应进行Deinterlace（消行）设置。如果你不清楚消行的原理并进行相应设置，在转换后你的画面很可能会出现抖动或闪烁。隔行还是逐行，可根据图像静止时的画面进行判断。（图1所示图像是亮度逐行而色度隔行的图像，图2为亮度和色度都消行后的结果）

    帧类型—I，P，B
    除了原始数据和编辑格式外，通过记录预测帧来记录数据的帧间压缩技术可减少数据量。对有限的带宽转换，B帧的使用将带来更好的压缩比；但增加B帧也会增加终端CPU开支，好的编码设置必须在二者之间做出平衡。在编码设置里，GOP（Group of Pictures），指的是指的是以I-frame为起点的一连串画面，如GOP为30时，每30帧画面时只有I帧，其他为P或B帧。

    图像分辨率和宽高比
    数字视频帧是一个2维像素网格，每个像素赋予一个颜色，如图3所示。
    计算机正常显示时宽高比与m:n一致，即1:1的像素比。但在电视上比如PAL，720×576个像素，宽高比是4:3，因为720:576=5:4，所以像素比为4:3/5:4=16:15。例如：SVCD是一种存储在CD并经常在计算机上播放的格式，SCVD以NTSC制式时分辨率为480×480，宽高比4:3。那么在播放时要求计算机播放软件“拉伸”像素—即沿X轴方向进行像素内插，最后在1:1像素比下回放640×480的4:3正常图像(此压缩规格称为失真视频)。转换时，除了要定义目标格式的分辨率外，同样要对该格式的标准宽高比进行定义。

    CBR，VBR和基于品质的VBR [Page]
    Constant Bit Rate(CBR)固定比特率，Variable Bit Rate(VBR)可变比特率和Quality Based VBR(基于品质的VBR)在一些视频编码器里是是编码选项。CBR平均了帧尺寸比特率；而为了达到恒定的质量，不同的视频片段需要不同的比特率，此时将用到VBR，—你可以通过设置平均比特率，编码器将自动根据内容帧运动情况进行计算。在要求最高品质时，Quality Based VBR(基于品质的VBR)是最好的编码方式，Q-VBR不能设置比特率，只能对质量进行设置，所以也不能对最后的文件尺寸大小进行预估。要注意：在同等时间同等视频质量的视频中，一个新闻播音员报道画面的文件尺寸要比一场足球比赛画面的文件要小，因为足球比赛有更多的运动图像。

    VBV—Video Buffer Verifier(视频缓冲校验)
    在编码时控制比特率的变化将用到VBV。Buffer尺寸决定了比特率必须保持恒定的时刻，以时间秒进行表示(有的也以bit来表示，可换算成秒)。0-5秒被认为是CBR，超过5秒被认定是VBR。在指定的VBV时间内比特率是可变的，只要区域内的平均比特率正常即可，这可使Codec对不同的段使用较高或较低的比特率。因为在VBV内根据内容允许峰值出现，所以可使段内的编码品质提高，从而也可以压缩总数据量。

    Buffer尺寸定义了比特率的变化大小，它也强制播放端开始播放之前播放器的Buffer长度，以确保播放顺畅而无须重新Buffer。VBV的尺寸要根据实践做出权衡，较大会使质量更佳，但会增加终端开支；较小播放更顺畅，但品质会有下降。经验是，操作者应根据运动图像内容不同来设定VBV。Q-VBR模式时VBV将不起作用。

    ME（Motion Estimation）——运动预估
    运动预估用以减少视频帧间运动的位移冗余，用有限的运动参数（用运动矢量来描述像素的平移运动）还原视频内容，对位移矢量的编码数据量要小于对每一个像素的编码，在保持图像品质的前提下降低比特率。方法是：画面一般划分成一些不连接的像素块（在MPEG-1/2标准中一个像素块为16×16像素），只对运动矢量进行估算、编码和传送。在实际编码工作中，还有一个参数是ME的搜索范围，用它来指定搜索前后帧中块移动的最大运动矢量长度，在SD中建议设置在255，对HD建议设置在511；同时，为了进一步扩展ME精度，同时打开Subblock（小于16×16子模块）搜索，而搜索帧的范围建议设置到3或4帧，搜索越长，质量越高，但编码速度与越慢。图4是采用Elecard StreamEye数字视频分析工具测得的运动矢量图。

电视台新媒体内容准备暨应用技术探讨

    PS、TS和ES
    PS（Program Stream，节目流）、TS（Transport Stream，传输流）和ES（Elementary Stream，基本流）的使用容易混淆。举例子来区分：观看互联网节目时如果你的文件必须完整下载再观看，我们称之为PS文件；而TS文件则是在下载的同时进行观看，边接收边解码，无须下载；ES文件则是指单独的视频或音频轨。

    除了以上的编码滤镜，专业编码中还有很多滤镜如视频的色彩调整、图像尺寸、对比度、Gamma值，音频的取样频率、音频轨道数、平衡、均衡等较易理解，在此不再赘述。

二. 电视台新媒体平台的技术选择
    新媒体平台架构要考虑技术成熟度、实施成本以及普及方式。

    Codec的选择
新媒体网络依赖于互联网和通信网。以标准的D1 DVD PAL清晰度为参考，同样清晰度的MPEG-2编码将需要2.5Mb/s带宽，MPEG-4需要1.2Mb/s，新国际标准的MPEG-4 Part 10（H.264）则需要1Mb/s带宽。H.264除了因最低带宽下图像品质最佳外，因易于IP数据包封装，更适宜在IP网络进行传输。在300Kb/s带宽下，在网络在线观看的编码格式以H.264为最佳，考虑到带宽的限制，CIF PAL（352×288）或CIF NTSC（320×240）分辨率的H.264编码在300Kb/s内可达到DVD品质的画质。另一个选择是已通过SMPTE标准化的微软公司VC-1专利Codec，VC-1与H.264一样包含了很多高级编码技术，其品质知觉感受也类似于H.264，同等品质比特率稍高于H.264，编码复杂度稍低于H.264。推荐选择H.264或VC-1作为有限带宽下传输高质量内容的推荐编码。如图5和图6所示，在同等300Kb/s的带宽、分辨率同为CIF PAL(352x288)下，图5是采用MPEG-2编码的TS流图像，图6是采用H.264编码的TS流图像。

    封装格式的选择
    上述已言H.264和VC-1作为推荐的网络编码Codec，对于H.264的容器，推荐Adobe公司的Flash 9（H.264编码），对VC-1则推荐使用微软Media Player播放的WMV9封装，这两种格式的播放器都可免费得到，而且两种都可封装成IP进行传输。

电视台新媒体内容准备暨应用技术探讨

    编码工具的选择
    专业的编码工具往往提供了较全面的格式和功能，所见即所得的预览工具让你很直观地看到想要的结果，还有字幕或LOGO叠加、剪辑、元数据等工具基本满足了所有需求。据笔者使用过的经验，Elecard公司的Convert Studio Pro和Telestream公司的Episode和FlipFactory产品是专业编码的首选，这两个公司在业界都有超过10年的开发经验，支持的格式超过160多种，并且支持大型的工业级海量编码，可根据生产量来设置不同的流程方案。

三.  内容编码的工作流程
    对于海量内容的内容转换，一套全自动、具有集群转换能力的流程方案必不可少。对方案和工作流程的描述，用一个实际例子进行说明，读者可参考。

    荷兰国家广播有三套公共电视频道，他们要求将95%的内容用于网站在线点播，为了保证内容的及时性，他们要求在传统电视节目播放10分钟后，相应的内容必须在网站能够观看。

    他们选用了边采集边转码的方案，使用硬件（Telestream公司的Pipeline具备此能力）采集的同时将采集内容同时递交到自动转码服务器，转码完毕后自动将内容上载到VOD服务器。同时，定制电视节目表进行采集自动触发，使用元数据和样片进行流程管理。

    流程包括用2台4通道硬件编码器对多个国家频道进行采集，内容被自动提交到4套FlipFactory（美国著名的转码软件）转码系统，在采集的同时进行高速转码到多种网站格式：MPEG-2,Windows Media,QuickTime和3GP。转码后的内容被自动提交到多个VOD系统，确保在输出之前内容发布到网络完全经过版权审核。系统之间无缝的沟通路径保证了完全自动，无须手控。 [Page]

电视台新媒体内容准备暨应用技术探讨

如图7所示，电视节目播放时使用从SDI（音频嵌入）端口进入流程，通过自动时间播放列表系统自动触发，硬件文件编码器自动开始采集成中间格式并进入转码过程。在转码系统中，有一系列设定好的监控文件夹，一旦发现新文件，系统将自动开始转码，并将转码好的文件自动放置到想要的地方。通过元数据和代理样片，管理者可进行系统日志监控。

结语
对于新媒体平台的不断涌现，传统电视地位受到挑战。但笔者认为，首先电视台在内容方面具有一定优势；其次，在视频技术领域我们的经验也要比新运营商更为丰富，故在新形势下，我们更应将挑战看成机遇，发挥我们的优势，发展新的平台运营模式。同时要注意到，新媒体平台与传统电视平台融合是大势所趋，在融合的思路下应与兄弟媒体相互合作，为观众奉献更多有价值的内容。B&P