音响工程 - 音频基本知识

2026/1/14 2:20:40

PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。 3、 MP3编码（铃声）

MP3，众所周知也就是MPEG-1 Layer 3，是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。Layer 3不是MPEG Layer 1或Layer 2的新版，只是与它们不同的复杂的编码方案。现在有许多可用的MP3编码器，其中最高品质的莫过于Lame，同时它也是开源免费的。

MP3技术上支持多声道（多于2个声道），但从未实施过或者今后也不会了。事实上，你可以编码源文件为pro logic （II）的多声道文件变换成立体声MP3。

MP3有不同的采样率和比特率（注意比特率并不是量化精度，而是代表压缩比），代表不同的音质。网络上流行的MP3是44.1KHz采样率，128Kbps比特率的。下表中列出了不同品质的MP3，其中列表示SR(采样频率)，范围8KHz~48KHz，行表示BR（比特率），范围 8Kbps~320Kbps。

MPEG 2.5 Layer 3 BR(kbps) 8 SR(KHz) 8 11.025 12

MPEG 2 Layer 3 BR(kbps) 8 SR(KHz) 16 22.05 24

MPEG 1 Layer 3 BR(kbps) 32 40 48 56 64 80 96 112 128 160 192 224 256 320 SR(KHz) 32 44.1 48 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 16 24 32 40 48 56 64 80 96 112 128 144 160 √ √ √ √ √ √ √ √ √ 16 24 32 40 48 56 64 80 96 112 128 144 160 √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ 表二 MP3对应的不同采样率和比特率 4、OGG编码（铃声）

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG的信念就是：

OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个\花花公子\人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR(可变比特率)。 5、MPC 编码

MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。 6、mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。 7、WMA（铃声）

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，而是网络。竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。 8、RA

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的

在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。 9、APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。 10、AMR(铃声) AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格式，也就是说我们用手机录音而成的文件就是这种格式的。AMR格式压缩率较高但是音质相对较差了一点。优点就是我们可以随心所欲地录制。 11、AAC/AAC+ ? 什么是AAC?

AAC代表Advanced Audio Coding(高级音频解码)，是一种由MPEG-4标准定义的有损音频压缩格式，由Fraunhofer发展，Dolby, Sony和AT&T是主要的贡献者。它被认为是MP3的继承者。AAC能够在一条音轨中包括48条全带宽（直到96khz）音频声道，加上15条低频增强（LFE，限制到120Hz）声道，直到15条数据流并且更多。

其实，AAC的技术早在1997年就成型了，当时被称为MPEG-2 AAC，但是随着2000年MPEG-4音频标准的出台，MPEG-2 AAC被用在这一标准中，同时追加了一些新的编码特性，所以它就改称为MPEG-4 AAC。与MP3不同，AAC的技术掌握在多家厂商手中，这使得AAC编码器非常多，既有纯商业的编码器，也有完全免费的编码器。纯商业的编码器如Fraunhofer IIS的FhG、杜比公司的Dolby AAC，免费的有Free AAC、苹果公司的iTune，Nero也通过它的Nero 6提供了Nero AAC。

AAC是一种高压缩比的音频压缩算法，它的压缩比可达20:1，远远超过了AC-3、MP3等较老的音频压缩算法。一般认为，AAC格式在96Kbps码率的表现超过了128Kbps的MP3音频。AAC另一个引人注目的地方就是它的多声道特性，它支持1~48个全音域音轨和15个低频音轨。除此之外，AAC最高支持96KHz的采样率，其解析能力足可以和DVD-Audio的PCM编码相提并论，因此，它得到了DVD论坛的支持，成为了下一代DVD的标准音频编码。

AAC的家族非常庞大，有9种规格，可适应不同场合应用的需要。其中LC低复杂性规格去掉了预测和增益控制模块，降低了复杂度，提高编码效率，是目前使用得最多的规格。

目前，苹果、AT&T和RealNetworks已经开始提供收费的AAC音乐下载服务。AAC也得到了众多硬件厂商的支持，除了苹果的iPOD随身听，还有诺基亚的多款手机及松下的部分随身听产品可支持AAC音频的播放。另外，目前已经有部分MPEG-1/2解码芯片中加入了AAC解码功能，出现支持AAC音频播放的DVD影碟机肯定是迟早的事情。 ? 什么是HE-AAC(也称AAC+)和LC-AAC？

AAC有两种LC AAC与HE AAC，HE AAC是较新的。LC意思是\低复杂性)而HE意思是 \高效性)。

HE-AAC也称之为AAC SBR/AAC+/aacplus等。注意HE-AAC注重于低码流的编码并很适合多声道文件（更小的文件尺寸）。

从学术上讲，HE-AAC混合了AAC与SBR技术，处理低比特率能有较好的效果。SBR代表的是Spectral Band Replication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或产生令人不快的噪音信号。SBR解决问题的方法是让核心编码去编码低频信号，而SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号（通常码流极低，~2 kbps）。这也是为什么被叫做Spectral Band Replication的原因，它只是增加音频的带宽，而非重建。(类似的技术也用在mp3 pro 64kbps能媲美128kbps的mp3就是这道理) ? MP4与AAC

MP4最初是一种音频格式，和MPEG-4没有太大的关系，就像MP3和MPEG-3没有关系一样。MP3是MPEG-1 Audio Layer 3 的缩写；而MP4是MPEG-2 AAC，完完全全是一种音频压缩格式，增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性，最重要的是，MP4通过特殊的技术实现数码版权保护，这是MP3所无法比拟的。

现在市面上的MP4多数偏向于多媒体播放器，能够播放AAC的，可以说是凤毛麟角。甚至有媒体把MP4说成是MPEG4的缩写，这在以前看来是一个谬论，但是经过商家不断的炒作，这个谬论也就成为了真理。现在若果你去电脑城听到MP4这个词，绝对是能播放视频格式的多媒体播放器的概念，而不是能播放音频MP4 AAC的随身听。出现这种怪现象不是毫无原因的，上面已提到AAC有版权保护功能，这也是众多唱片公司支持AAC的原因，要使自己的播放器支持AAC，还得支持付一定的版权费或专利费，另外，AAC的来源也是个问题，不像MP3那么开放，网上来源极少，所以目前音频MP4播放器发展尚不成熟，鉴于以上现状，众商家干脆“借尸还魂”，把MP4等同MPEG-4缩写而论，这样也恰好应了MP4是MP3的下一代这条规律，除了支持MP3所具有的音乐播放功能外，还具备强大的MPEG-4视频播放能力，另外，恰好“4”在“3”后，从这点出发，把MP4等同MPEG-4是合理的。

第三部分和弦铃声格式

与音乐不同的是，和弦铃声都是制作出来的。播放的时候，只需要合成（或解码）就可以输出PCM格式的数据，然后PCM格式的数据可以通I2S接口传输，然后经过数-模转换输出。

1、 MIDI合成音乐 ? 什么是MIDI？

MIDI（Musical Instrument Digital Interface）音乐设备数字化接口，也称为数字音序。“MIDI”文件(*.MID)不是声音文件,不是一段录制好的声音，而是记录声音的信息，然后再告诉声卡如何再现音乐的一组指令。可以做这样的比喻：如果数字音频是一个人独奏吉它时的录音带，MIDI文件则相当于该独奏曲的乐谱。虽然乐谱本身不能产生出任何实际的声音来，但是乐谱确定了音乐演奏得有多快，拨哪个音符，以及应该用多大的力度弹奏吉它。　　我们可以从以下几点说明“MIDI”文件(*.MID)的特性:

　　1. 首先,正如上所说,它不是声音文件,只是一组指导声卡如何发声的指令，因此它生成的文件比较小。

　　2. 它只能应用于电子音乐设备(如电脑声卡等)，而不能应用于人声。原因很简单，它发出的声音只能来自声卡中的内置音源（例如波表ROM中存储的音色）。自然界中那么丰富的音乐的和非音乐的声音，都是不能包括在内的。要在MIDI中混合自然界的模拟音效，一般是在在MIDI上叠加PCM/ADPCM。 3. midi格式是记录每个音的音色、音名、响度、角度、时间等，根据记录查询音色库，

音响工程 - 音频基本知识.doc 将本文的Word文档下载到电脑

下载这篇word文档