数字化三步骤:数字化语音的过程

更新时间:2023-04-26
释放双眼,带上耳机,听听看~!
00:00

00:00
       产生64kbit/s PCM语音要经过三个步骤:以足够高的频率对输入的模拟波形进行抽样,以求能准确地复制出原来的信号;对样值量化以产生连串的“0”“1”比特流,以此表示模拟波形:最后要对量化的比特进行编码,以适于在长距离链路上传输。
PCM语音
       实际上,现在主要有两种方式来产生。第一种也是长期以来唯一让人满意的把语音数字化的方法,是尽可能地用一串“0”和“1”来对模拟波形进行模仿,这就是64kbit/s PCM。但这不是产生数字语音的唯一方法。
可以把模拟波形看作一个整体,并对那些在语音中产生的波形而不是对任意的波形进行编码。模仿语音的设备被称为语音编码器,或简称为声码器,这一节主要与波形模仿有关,下一节将详细说明主要运用在VoIP中的些语音编码方法。
       经过这三个步骤在发送端由模拟语音产生了64kbit/s PCM语音。但是在语音数字化系统中模/数(A/D)转换仅仅是完成了一半,在接收端还需有个数/模(DIA)转换过程把到达的比特还原成声音。可以说,数字语音的复杂性集中在发送器的A/D处。当然并不是说接收不重要,只是相对而言比较简单而已,它只是接收比特流并按照顺序恢复声音。
       这三个数字化步骤的详细过程,数学家和电子工程师们已经用一系列复杂的基本公式定义过了。公式是数学和工程的共同语言,为了准确的描述这三个步骤,许多电话技术文章采用了图形、表格和公式等手段,精确地阐述了每一个步骤是如何使语音信号失真达到最小化的。不过,本书中对这些步骤的处理比较简洁,而且在数学上也不是十分严格。但是,为了描述清语音数字化的过程,对每一步骤仍有许多内容有待阐述,因为在一本工程书中,起码的数学和工程概念是应被掌握的。
       这儿更多是用类比的方法对工程概念作一般意义上的说明。考虑到这本书所针对的读者,以易懂为目的,在严格性上做出一点牺牲是可以原谅的。

1、抽样

       为了模拟任意的波形,要做的第一件事便是建立一套定时机制,以决定何时对输入波形进行抽样。典型的做法是进行等间隔抽样,不过为何要设定相同的抽样间隔时间却没有什么数学上的原因,只是这种做法更简单罢了。从抽样定理中我们得知,如果抽样频率足够高,就能在链路的另端完全恢复出输入的模拟波形。只要在接收端采用一种名为“低通滤波器”的电路来“平滑”抽样过程中产生的样值即可。
       抽样过程会产生脉冲振幅调制(PAM)样值。在接收器一端只要有足够多的PAM样值,就可以像绘图似的把样值端点“连接”起来,以恢复输入波形。不过,现在还不能在广域网上传送PAM样值。这一基本思想如图2-6所示。
PAM抽样
图2-6  PAM抽样
       PAM这一术语的意思是对一系列的样值脉冲序列进行调制以模仿模拟波形。于是,它被称为脉冲振幅调制。
       在1933年,尼奎斯特给出了为再生模拟波形所需的最小抽样频率,也就是尼金斯特频率,其大小是输入的模拟波形中最高频率成分的两倍,有时也称为两倍带宽。这里,带宽只是衡量输入信号频率范围的尺度。这样,如果一个上限为3400Hz的模拟语音信号要以尼奎斯特速率进行抽样,则抽样频率至少必须是其两倍,即6800Hz,或说每秒抽样6800次。
       抽样并非一定要在尼奎斯特频率进行。尼奎斯特速率是复制出输入波形所需的最小频率,不过抽样可在更高或更低的速率上进行。如果抽样低于尼奎斯特速率,会导致波形畸变,原因是抽样速率没有跟上输入信号的变化速度,所以在输出端就不能把它准确地复制出来。若以尼奎斯特速率或更高的速率进行抽样,则不会产生这种现象。
       抽样速率为何要大于尼奎斯特速率?因为只有这样接收器才可获得比必需更多的信息来重建输出波形。这样,如果有样值出错,检测出来后就可以丢弃,毫不影响重建模拟波形。不管对语音还是音乐的模拟波形进行数字化,都是在高于尼奎斯特速率的情况下进行的,这被称作“过量化”
       对模拟语音来说,抽样速率设在8000Hz(即每秒抽样8000次)。它能处理的语音带宽为4000Hz,这要比所要求的带宽大些。然而,在语音数字化中,采用4000Hz的带宽有不少优点,其中之一便是:4是2的幕,而大多数数字处理器基于2进制计数系统工作,这就方便了数字处理器对样值的处理。在64kbit/s PCM语音系统中,每1/8000s(或说125s)产生一个PAM样值。
抽样频率
       PAM样值可以直接送入链路并发送给接收器。然而,除非是用于短距离通信,实际上很少这样做。因为进行远距离传输时,PAM样值会发生显著的变形。不过,一些PBX系统却可以直接采用PAM样值来通信。
     应注意到PAM样值并非是真正的数字化信号。像模拟波形的一样,PAM样值能表示某一数值区间中的任何有效值。一个PAM样值能方便地表示+6.5473、+6.5472,或者两者之间的其他值。实质上,PAM样值也是连续的变量,而数字化过程仅仅刚从PAM样值开始。还有必要产生连串的0和1来代表PAM样值以实现真正的数字化。在PCM语音中,这一工作由量化步骤来完成。

2、量化  

 实际上,对产生64kbit/s模拟语音的模拟信号进行了两次数字化。PAM样值首先通过量化过程被转化为一串的0或1,接着它们又被转化为适合于在数字长途通信链路上进行传输的形式。也有可能先量化后再使用调制解调器在一条模拟链路上发送数字化语音,不过这种情况非常少见,在此不予考虑。其实,64kbit/s PCM语音就是为在DS-0数字链路上传输而开发的,所以没有必要费周折地去用模拟链路传送数字信号。DS-0代表数字信号的第0级,它是所有数字化语音复用系统的基本组成部分。
pcm量化
       正是量化步骤真正产生了脉冲编码调制(PCM)的“码字”--即用PCM的多种0、1组合来表达模拟的PAM样值。量化步骤对PAM样值进行数字化编码,完成了整个数字化过程中真正的A/D转换。
       每个PAM样值都会产生一申0、1组合,0、1组合可用来表示一个给定的PAM样值。如果每秒产生8000个PAM样值,那么用来表示一个PAM样值的比特就必须在125s(1/8000s)内发出。这意味着,如果每个PAM样值都用16比特来表示,则数字信道中的速率就是128kbit/s(16x8000)。显然,64kbit/s PCM语音工作在64kbit/s,于是每一个PAM样值得用8比特来表示。8是2的幕,8比特组成了一个字节,而早期被用于语音量化的DSP是8比特处理器,它每次可以处理一个字节,恰好是个PAM样值。
       不过,让我们考虑一下用3比特来表示PAM样值的情况,如图2-7所示。用于对PAM样值进行编码的数字化“等级”应该覆盖所有的模拟,值,既然每个样值有3比特,那么在整PAM样值区间内就只有8个等级,在图中,没有给出PAM样值,但为简明起见,给出了输入模拟波型。请注意,纵轴上的值并非按数值大小顺序排列,这样做是有目的的。最好使相邻的两个等级之间只有一个比特位上的值有所不同,这样,传输链路上的单个比特错误只会在接收器里产生一个等级的误差,考虑到每个PCM码字仅代表一秒的1/8000,对PCM语音的影响并不显著。因此在量化时,PAM样值与PCM字之间没有从大到小的一一对应关系。
       这幅图的要点并不是要展示量化等级的安排方法。其真实意图是想说明:尽管PAM样值大小不同,但仍可能产生同样的PCM码字。由于表示PCM码字的比特数有限,由它来划分的量化等级也是有限的,自然就产生了这一结果。如图所示,所有落在同一个量化区间内的样值都得用该等级中心处的PCM值来表示。
       这样,量化过程必然会在PAM样值序列中引入一些失真或误差。这种误差被称为量化噪声。通过增加等级数目可以减小量化噪声,但是这增加了每个PAM样值所需的比特数。而且,传输同样的信息还需增加链路的速率。不过,只要量化噪声被限制在一定范围内,数字语音的质量还是可以接受的。对64kbit/s PCM语音来说,仅用8比特来代表PAM样值就可以了。
对PCM样值进行量化
图7  对PCM样值进行量化
       你可能会觉得这是一种嘲弄:以尼金斯特速率进行抽样以求精确复制出模拟波形,由于A/D步骤中引入了量化噪声,结果在链路的接收端无,法准确复制出模拟波形。这种差错是从模拟信号(连续信号)到数字信号(离散信号)格式变换产生的结果。以增加比特数为代价,可以把量化噪声减到最小程度,却不能把它完全消除。
       在讨论语音数字化编码之前,关于这个数字化的最后一个步骤,还需指出:语音数字化的对象并不是任意波形,而是表示语音的模拟波形。实际上,人的语音由低幅清音和高幅浊音构成,在这之间的成分并不多。根据这一特点,可以采用一些方法尽量减小语音量化误差。PCM语音数字化系统采用了一个名为“压扩”的过程来达到这一目的。
       压扩是指先在数字化过程中对语音的一部分进行压缩,然后在接收器中再把这些语音扩展。如图2-7所示,对PAM样值进行等间隔量化的问题是:对实际语音进行量化时,低幅声音分配到的量化等级太少,而高幅声音分配到的量化等级又过多。高幅语音的抗噪声能力比低幅语音的强,量化误差对高幅语音的影响不大,于是,不妨把它的量化等级减少一些。压扩通过给高幅音设置较少的量化等级,同时给低幅声音设置较多的量化等级来解决了这个问题。
       压扩的原理理解起来很容易。压扩把幅度范围分成有大有小的区间,而不是等问隔划分,这,原理如图2-8所示。为简明起见,编码等级按数字大小顺序排列。图的左部为没有采用压扩的量化等级,幅度和量化编码之间呈线性相等关系。图的右部则展示了在同等区域内压扩(压缩/扩展)的工作原理。图中示出了六个压扩区域,现在,低幅部分有更多的编码等级,而高幅部分的等级较少,这正是我们所期望的结果。
压扩幅度
       请注意在图2-8中的非等间隔划分的方法是,首先把整个区域取中点,一分为二;再把所生成的低幅区域一分为二,不断下去,直到形成了多个的量化区间为止。实际上,压扩方法远比这简单的“一半又一半”地划分区间的规则复杂,但也并非神秘莫测。当今有两种主要的压扩方法,它们是A-律和mu-律(有时也用希腊字母写作:-律)压扩。A-压扩律在国际上应用很广,世界上大多数国家都采用这种压扩律。Mu-压扩律(亦被称为μ=256的压扩)主要用于北美。换句话说,A-律用于E-载波中而mu-律用于T-载波中,它们不过是区分这两种普遍应用的复用体制的两个名字而已。
       最普遍的语音压扩方式是,在纵轴的两则各设有8个区间,这样,对正、负幅度来说都有8个区间。这8个压扩区域都用3比特表示。还有个比特被用来表示极性(+或-),这样共有4比特。这4个比特就可以决定PAM样值落入了这16个区域中的哪一个,然而.64kbit/s PCM语音最后是用8比特来表示每个PAM脉冲,而不是4比特。实际上,每个压扩区域再平均分成16个等级,其余的4比特就是表示属于哪·个等级的。这样共有8比特以形成整个的8比特PCM字,完整的8比特PCM码字结构如图2-9所示。
8比特PCM码字
图9  8比特PCM码字
       A-律和mu-律压扩都产生8比特PCM码字,不过它们不能互用。这样,一个A-律编码器就不能与一个mu-律解码器一起使用。所有的编码/解码器要么都是A-律,要么都是mu-律,如果一个是A-律而另一个就不能是mu-律的。好在从一种压扩形式转换到另一种压扩形式比较简单,就跟查表一样。在过去,通常是把数字语音重新转换为模拟信号后再用另种压扩形式重新编码,实际上这要比直接在A-律和mu-律之间转换要来得迅速和经济。
       现在,仍然存在关于A-律或mu-律压扩谁“更好”的争论。实际上,人的语音不仅有高幅和低幅之分,而且男士和女士的声音也有很大差异。些语言不仅依赖于声音,还依赖音高的不同来判定词义。哪一种压扩方法可以更好地分辨各人间的差异仍在不断探讨。但是两种方法工作得都很好,在可预见的将来,在北美将继续采用mu-律,而在其他地方仍然采用,A-律。

3、编码

       为了产生适于在广域网链路上传输的数字语音,最后还要进行编码。
数字语音编码
       编码步骤产生线路码,即适于在长距离上传输的0、1组合。这听起来也许有些奇怪,因为量化步骤的输出就已是数字化且以0、1形式表示的8比特PCM码字。若非进行短距离传输,极少以PCM码字的形式来传送数字化的PAM样值。因为比起由PAM直接产生的PCM码字,经过适当变换的线路码更适合长距离传输。
       在美国,经常使用的线路码是双极性传号交替反转码(双级性AMI),或简称作AMI(因为所有的AMI都是双极性的)。AMI最初是在60年代被用于数字电话的T-载波系统中复用等级的第一级,即T-1(有时写作TI)。尽管现在仍然还有使用AMI的情况,但是大多数T-1链路都已不使用AMI了,而是使用基于AMI的8零取代二进制码(B8ZS)。B8ZS如何增强AMI的性能并不是本书所关心的,这里只要知道AMI能被用来在数字化的T-1链路上发送8比特的PCM码字即可。
       从技术上说,AMI是双极性编码,不过AMI这一名词在数字语音技术领域以外仍被广泛使用。双极性编码使用交替传号反转来代表线路上的1。传号只是从电报系统中借用的一个术语,用来表示线路上的电压脉冲。电压脉冲可以全正或全负,这是直流工作方式;也可以正负交替变换,这是交流工作方式。用正负交替的脉冲来表示连续的1,这正是AMI的本质所在。在一比特持续期间,线路上没有电压则表示“0”。这样,对于任意的0.1串,双极性编码的情况如图2-10所示。
双极性AMI线路码
图10    双极性AMI线路码
       双极性编码解决了早期数字链路上的几个棘手的问题。如果通信线路上的直流脉冲太多,线路将不能正常工作。交流脉冲的使用解决了这个问题,而且交流脉冲在同样的功率水平上比基本的直流脉冲传得远。缺少“直流成分”对长途通信系统有利,因为必须通过电导体才能把直流功率送到线路上去。把交流信号功率送到电路上并不需要直接的电连接,这样,更容易隔离和保护交流长途通信电路。
       双极性码并不是现用的唯一线路码型。B8ZS是AMI的一个改进形式,不过人们在B8ZS是属于AMI还是应该自成一类这一问题上还各执一辞。B8ZS可以解决原始的AMI线路码所遇到的问题,当线路上没有脉冲时,它仍对长串的“0”比特进行编码。如果很长时间不发送脉冲就会导致在发送机和接收机之间无法保持同步(比如说收到了大约14个连“0”,接收机可能无法判断其究竞是14个呢还是15个)。B8ZS有意地在线路上插入“双极性破坏”字符,以表示出现了8个连续的“0”比特;双极性破坏字符采用或正或负但必须同向的脉冲来表示连续的“1”,而这种编码单就AMI而言是错误的。现在在美国使用的,除了AMI/B8ZS还有其他的线性码,不过它们已超出了这里的讨论范围。
       AMI和B8ZS 码在美国以外使用得很少,其他国家更多地是采用三阶高密度双极性码(HDB3)作为E-1(2.048Mbit/s)、E-2(8.448Mbit/s),和E-3(34.368Mbit/s)的线路编码,在E-4(139.264Mbit/s)中则采用编码传号反转(CMI)码。HDB3(有时称作B4ZS)是对每三个连零插入个破坏字符的双极性编码。CMI实际上根本不是双极性码,却很像呈现在串口上的比特流,不过它适于广域网传输的需要。为了提高传输效率,所有的E-载波等级都能把许多数字语音信号复用到一起。不过在所有情况下,基本的数字语音速率都保持在64kbit/s。
        一旦模拟语音被抽样、量化和编码,所得到的数字语音就可在广域网链路上发送,并在接收端转化回模拟波形。不过,由于量化噪声不可避免,总是不能把原始波形精确地复制出来。

下一篇

SBC是什么-企业为什么需要SB以及应用场景

通信百科

SBC是什么-企业为什么需要SB以及应用场景

sbc一种NAT穿透的方式。SBC可确保VoIP 安全,又可提供媒体代理服务器的套件。SBC架构于IMS网络之上,可作为IMS网络的SIP和RTSP的 Proxy Server,所有的SIP与RTSP讯息都会透过SBC来处理,SBC更具备N... ...

相关内容

楼宇云对讲(操作步骤、使用方法及优势)

楼宇云对讲(操作步骤、使用方法及优势)

随着城市的发展,小区的数量也在不断增加。小区管理涉及到诸多方面,其中小区安全管理......

通信系统集成

2023-11-24

管廊广播系统(定义、优势及操作步骤和应用场景)

管廊广播系统(定义、优势及操作步骤和应用场景)

在现代城市建设中,管廊系统已经成为了不可或缺的一部分。而在管廊系统中,广播系统的......

通信系统集成

2023-11-14

对讲三防手机(适合哪些行业使用及如何选择)

对讲三防手机(适合哪些行业使用及如何选择)

在现代社会中,对讲机已经成为了许多企业和行业的必备工具。但是,传统的对讲机在面对......

通信系统集成

2023-11-13