行业资讯 2004.05.26

浅谈广播音频格式S48

谢一兵海南广播电视台广播技术播控部网络组依马狮网

以数字音频工作站DAW (Digital Audio Workstation)和网络自动化播出为代表的广播数字化浪潮正在席卷全国，国内许多广播电台已经实现了数字化。海南电台经过仔细考察，选择了英夫美迪公司的Air2000/ s1系统，该系统网络独家采用全新设计的分离软件体系结构，使数据库、服务器、网络等故障不再影响音频播出。同时在业界首家采用的动态缓冲技术使播出对网络负载的要求极大地降低，即使在播出时网络出现严重故障也丝毫不影响。AIR2000广播电台数字音频工作站与自动化播出网络系统将数字音频技术与计算机网络技术相结合，实现了音乐、广告、标头、新闻等音频节目的数字化制作、自动化节目播出和电脑节目管理、功能齐全，全中文操作界面、易学易用、系统维护简单明了。
该系统从录制编辑到播出都采用了新的数字音频压缩格式S48。

    一关于音频压缩格式
    1．MPEG-1音频压缩与专业广播领域内的数字音频文件格式

众所周知，音频数字化是通过声卡对模拟音频信号进行每秒上千次的采样，然后把每个采样值按一定的比特数量化。对CD音质的信号来讲，每秒要44100次的采样，每个采样值是16比特的量化，最后得到标准的数字音频的码流。记录数字音频码流的文件格式很多，Microsoft定义的用于Windows PC的数字化音频的文件格式扩展名为WAV，是一种应用较广的线性的、非压缩的数字化声音文件格式。立体声CD 音质信号每秒的码流是44.1k×16×2≈1.4Mb/s，或者存储容量每分钟为10M。这样高的码流和容量，虽然具有很好的音质，但占用较多的磁盘空间，对于数字音频的存储、处理和网络传输提出了很高的要求。因此对数字音频进行压缩具有非常重要的意义，只有这样系统才具有更好的可用性。
    对于专业广播领域内的数字音频文件格式，除了音质方面的要求，对编辑性能也有一定的要求，在广播数字化浪潮席卷全国的今天，统一的格式还给广播电台、电视台、唱片社及其它节目录制单位基于不同计算机平台的音频工作站之间的数字音频文件录制和无缝交换提供方便。
    在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。MPEG音频压缩的原理很简单，首先是利用编码技术，将源文件(Wave格式)重新进行编码压缩，其次是利用数据缩减，将人类听觉中的不敏感部分删除，从而达到缩小文件尺寸的目的。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ（MP1）、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。
    从图1中我们可以看出，Wave没有经过压缩，文件的尺寸非常大，而MP1和MP2分别有1:4和1:6～1:8的压缩比例。MP2由于其适当的复杂程度和优秀的声音质量，以及高质量的压缩和高效率的编辑性能正在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用，成为数字音频工作站和自动播出领域内事实上的标准。
    2．具体的压缩原理
    MPEG-1的压缩技术方案是子带压缩，子带分割的实现是通过时频映射，采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带；同时，信号通过FFT运算，对信号进行频谱分析；子带信号与频谱同步计算，得出对各子带的掩蔽特性，由于掩蔽特性的存在，减少了对量化比特率的要求，不同子带分配不同的量化比特数，但对于各子带而言，是线性量化。加上CRC校验码，得到标准的MPEG码流。在解码端，只要解帧，子带样值解码，最后进行频时映射还原，最后输出标准PCM码流。其原理方框图如图2所示：

    下面详细介绍MP2具体方案。
    时频映射：数字的多相正交滤波器组把信号分成32个子带信号，每个子带的频带宽不是均匀划分的（MP1是均匀划分），因为人耳低频时的灵敏度在700Hz以后急剧降低。与之相关的一个概念叫关键带宽，因为在同样的掩蔽值时，低频有窄的带宽，而高频端则有较宽的带宽。这样，在按关键带宽分割时，低频取的带宽窄，即意味着对低频有较高频率分辨率，在高频端时则相对有较低一点的分辨率。这样的分配，更符合人耳的灵敏度特性，可以改善对低频端压缩编码的失真。但这样做需要较复杂一些的滤波器组。
    心理声学模型：使用1024点的FFT变换得到信号的短时频谱功率信息，输出的电平和时频映射的子带样值同步计算，得到每个子带的掩蔽阈值。最后将该子带的最大信号/掩蔽阈值率输入给量化器。MP2使用的FFT精度比MP1（512点）高一些，提高了频率的分辨率，得到原信号的更准确瞬间频谱特性。
    量化/编码：首先检测每个子带的样值，找到最大相对值，并且将它6比特量化，对该子带来讲叫比例因子，MP2的帧长度码流是MP1的3倍，允许每个子带有三个连续的比例因子，但编码时用一、二个或者三个，由它们之间的差别来定。通过最小化噪音/掩蔽值，由比例因子决定动态量化比特数，将该子带样值线性量化。量化比特数用一个4位码来描述，4位码可以用来描述24=16bit，最大16bit的量化。比例因子用6位码来描述，最大26=64的子带样值的系数。这样每个子带用的量化比特数和每个子带的最大样值都在MPEG的码流里，在接收端再按照这些信息还原原信号的幅值。MP2子带内有三个比例因子，这就意味着带内再进行动态比特分配，更增加了MPEG-1的压缩率。
    帧形成：每一帧的开始都有一个同步的信息，还有CRC的循环冗余纠错码。帧是MPEG-1处理的最小单元，一帧信号处理1152个PCM的样值，因为要检测每个样值的大小后，才能开始处理，所以延时时间为1152/48k=24ms。一帧相当于24ms 的声音样本。这样Mp2的精确度为24ms，而MP1的精确度为8ms，如果用于编辑的话，MP1更精确。MP2描述比特分配的比特位数不是固定的，在低端子带用4位码来描述，相对低端子带量化比特数最大为24=16bit，在中间子带用3位码描述，相对中间子带比特最大为23=8bit，高端子带用2位码来描述，相对最大比特为22=4bit，这种分频率不同而比特率不一样的做法，也是关键带宽的应用之一。
    MP2具有多种多样的比特率，对于 2×128 kb/s或以上比特率的音频数据是无损质量的压缩，比特率的大小显示了编码的质量和压缩比。例如：对于比特率为256kb/s,采样率48kHz，其压缩比为256/48=5.3，声音质量高于CD质量。而对于比特率32kb/s,采样率32kHz，其压缩比为32/32=10,但声音质量远低于CD质量。
    3．S48音频格式
    根据英夫美迪公司的定义，S48音频格式是指比特率为256kb/s,采样频率为48kHz的MP2格式。由于MP2压缩方法的复杂程度大大高于普通的压缩算法，它需要进行频谱变换，而由计算机进行频谱变换意味着大量的矩阵运算，所以实时录制S48需要内置处理器的声卡，Digigram公司的PCX系列声卡采用先进的DSP（数字信号处理器）芯片配合强大的DSP程序实现了实时的MP2高质量编码，同时提供大量专业数字音频处理功能，因此英夫美迪公司采用了该公司内置66 MHz 56002音频处理器的pcx924声卡，配合英夫美迪独立开发的四轨音频编辑器软件（daw2）来录制编辑标准的S48格式音频文件，10分钟的S48格式声音文件大小为18775KB，10分钟的WAV格式的声音文件大小为112649kB，压缩比为112649kB/18775KB，约6倍。

二 WAV格式和S48格式之间的转换
在电台的日常工作中常常需要在WAV格式和S48格式之间来回的转换。例如，自动化播出音频文件格式为S48，但是节目制作经常采用CD抓轨软件来引用CD音乐，这样可以节省许多时间，而抓轨软件的格式通常都是WAV格式的；S48格式的编辑精度只有24ms，编辑软件也不支持降噪、EQ等常用的软件效果器，所以有些高标准的精品节目有必要先用cooledit、sam2496等音频制作软件录制成WAV格式，再经过软件效果器仔细处理再转换回S48格式播出；至于把S48格式转换为WAV格式最典型的应用就是把制作完成的播出节目刻录成CD以便与外界交流……
&