在我们讨论如MPEG-2和H.264这样的视频压缩时,我们往往考虑的是视频方面,对音频考虑不多。音频的确很重要,但现实就是这样。
由于对超越现用于蓝光盘和许多摄录一体机的MPEG-4/H.264压缩有很强烈的推力,我们应花一点时间考虑下一代视频编码的音频特性。最可能广泛采用的下一代编解码是HEVC(高效率视频编码),或H.265。记住这是一种视频编解码,不是音频编解码。将配套HEVC的音频编码正由不同于HEVC/H.265的工作团队开发。
谷歌也开发了一个竞争的压缩标准VP9,它将内建于许多网络浏览器内。VP无特许权使用费,谷歌对VP9的愿景是比HEVC/H.265,它在编码效率和图像质量方面有更好的性能。尽管如此,H.265看来在未来数年将是专业和广播视频选择的编码标准,尽管它有相关的特许权使用费。
还有另一种下一代视频编解码即将浮现,它称为Daala,正由Xiph.Org基金会和Mozilla公司开发。Xiph.Org的创立者表示Daala性能应超越HEVC和VP9一代,但2015年预计不会发布。有趣的是,Xiph.Org基金会是FLAC(自由无损音频编解码)的创造者。FLAC因其音频性能颇受好评。
两倍效率
从视频观点来看,H.265效率是H.264的两倍,而H.264效率是MPEG-2的两倍左右。换句话说,用MPEG-2编码视频流要求20Mb/s,用H.264和H.265只需10Mb/和5Mb/s左右。这有点过于简单化,但为一个有用的经验法则。

MPEG-2引导我们的大多数认识了MP3音频编码。与MPEG-1压缩一起在上世纪90年代推出,MP3代表MPEG音频第三层。它成为了一个流行的音频压缩标准,但同时使用的还有很多。与母视频压缩标准一样,MP3为一种有损压缩,意味着为达到其压缩,它改变音频,并且它们一旦被压缩,这些改变无法恢复。
MP3具有广泛的影响最终音频质量的设置,包括取样率和码率。主流MP3可在32、44.1和48kHz取样,并能以56-384kb/s码率编码。在128kb/s和44.1kHz取样,一个MP3文件大小是一个不压缩CD录音的9.1%左右。在320kb/s码率编码MP3文件,产生的码流大小是一个不压缩CD录音的23%。
高级音频编码(AAC)在MP3后开发,并利用了从该格式吸收的东西。AAC在相同码率普遍提供更好的音质。AAC还有一个成为高效率高级音频编码(HE-AAC)的分支,它被用于如DVB-H和ATSC-M/H等的移动电视标准。与MP3类似,AAC也是一直有损压缩格式,并且有一系列类似于MP3的设置。
杜比数字和AC-3是同一音频处理格式的两个名称。AC-3由杜比实验室开发,有时被称为“音频编解码三”或“高级编解码三”。所有形式的AC-3都支持环绕声,最初版本传载5.1声道,后来的杜比数字+处理7.1声道。杜比数字+增强版E-AC-3能够传载最多13.1声道。更高编码效率的E-AC-3意味着它在一个256kb/s码流中能够提供不错的5.1声道音频。
下一代音频格式
与HEVC/H.265有关的主要音频编码格式是MPEG-H和AC-3,也可能包括之后的其它编解码。MPEG-H可认为是“增强版AAC”,去年ATSC宣布MPEG-H 3D音频为提议用于ATSC 3.0音频系统的三种标准之一。在其最简单的形式,MPEG-H将支持8声道音频。它有其它许多特性,包括提供响度元数据的能力。

Dolby AC-4同样是从AC-3演变而来的非常高级的编解码。相比AC-3,AC-4提高广播节目的压缩效率约50%。AC-4已由欧洲电信标准协会标准化且被英国标准组织DVB项目采用。此标准具有对对白增强、智能响度和高级动态范围控制的原生支持,以及对多语种和描述范围的更有效支持。
这些音频编解码与HEVC的相互作用依然在发展中,并将成为美国最终的ATSC标准的一部分。在最近的ATSC训练营,NBC的Jim Starzynski演示了MPEG-H的现状以及未来的预期。
与视频编解码一样,音频编解码在把音频压缩为较小码流时正更高效。这将使未来的广播节目编解码提供更多音频声道,并且为广播机构提供数量与质量达成折衷的更多选择。