专注SIP通讯产品与方案

分组化语音技术

释放双眼,带上耳机,听听看~!
00:00

00:00
       因为分组网是为突发式的、可变传输速率的数据应用程序而设计的,所以最初分组化语音的尝试遭到了失败。数据应用程序,比如E-mail和FTP并不在意时延和时延的变化问题。
       为了更有效地进行语音分组化传输,必须解决以下问题。
分组网
       打包时延:当以每秒8000次的速率获取的语音采样值,并积累到可被放入到一个分组中的时候,打包时延的问题就发生了。也就是说,根据分组大小的不同,将在不同程度上引起语音电路上的时延。比如说,IP分组的默认大小是570字节左右(最大尺寸为64000字节,但从来没有分组采用这么大的尺寸)。这种分组将给语音“电路”增加125μsx570=71250μs,也就是71ms左右的时延。较高的端到端的时延要求付出额外代价才能消除回波。
       串行时延(语音颤抖)的问题:当一个对时延要求很严格的语音分组排队在不同数量的数据分组(或者仅仅是一些对时延要求不高的分组)之后时,申行时延就发生了。传输过程中,每个IP路由器处都会产生申行时延现象,由这一现象引起的语音颤抖将会以种种方式扰乱语音。
       过高的语音发送速率:数字化语音的发送速率通常为64kbit/s。但是IP路由器的链路的基本速率也是64khit/s。这样一来,只要传输包含着64kbit/s的PCM语音流的分组,将迫使任何其他形式的分组不能在链路,上传输。这还没有把IP分组的分组头负荷考虑在内,而分组头又是必不可少的。这样在上述的64kbit/s的链路上将无法传输分组头。
       发送固定速率的语音:64kbit/s的PCM语音的发送速率是固定不变的,甚至在不说话时也保持这个发送速率,但是分组更适合干突发式的应用。也许将不说话的部分去除会使语音具有突发性,因为多数谈话中,因为玲听对方讲话而使50%左右的时间是不说话的。可以想像,如果真把不说话的部分去除了,通话双方有可能因为感觉不到对方在玲听而都不说话了。打电话的人已经习惯电话中的一些轻微噪声和背景声音,如果没有了这些声音,说话的人会以为线路出了问题,自然就会寻问“你还在那儿吗?”,想要引起对方的应答。(这将抵消我们将语音变成突发式所带来的好处)。
传输协议和数据协议
        出错后的重发问题:IP网是无连接的,最大努力投递的网络,IP层也不存在错误恢复机制。IP路由器将抛弃有差错的分组。但是,因为IP是为对差错敏感的数据协议设计的,所以在IP之上的传输控制协议(简称TCP)层将会重发对方未收到的部分。看来TCP将成为VolP的首选,因为TCP和语音都是面向连接的。但是,包含着语音抽样值的字节不能进行重发(语音是实时的)。语音抽样值的丢失仅仅会使谈话有点小小的不连续,而且人们有自己的差错恢复方法(如“请再说一遍”之类的)。取而代之的协议是用户数据报协议(简称UDP),它因为无须重发而引起人们关注。
       幸运的是,上述每个问题都不是无法解决的,而且其中某些问题的解决方法已经形成标准了,下面将逐一地进行说明。