专注SIP通讯产品与方案

网络电话话音编码一般要求

  话音编码的要求可用编码器属性(attribute)来表示,主要属性有比特率、时延、杂复度和话音质量4项。在具体实现中,这些属性往往是有矛盾的,因此必须根据实际应用进行取舍,对各个属性提出折衷的要求,从而确定合适的编码方法。
比特率
  降低比特率往往是话音编码的首要目标,它直接关系到传输资源的有效利用和网络容量的提高。根据比特率和输入话音的关系可将编码器分为两类:固定比特率和可变比特率编码器。
  现有大部分编码标准都是固定比特率编码,其范围为0.8-64kbit/s。其中,保密电话的比特率最低,为0.8-4.8kbit/s,其原因是它的通信信道带宽限定为4.8kbit/s以下。数字蜂窝移动电话和卫星电话的编码器比特率为3.3-13kbit/s,它使数字蜂窝系统的容量可达模拟系统的3-5倍。需要注意的是,蜂窝系统中常伴有信道编码,使总的比特率可达20-30kbit/s。实际情况往往是根据规定的无线信道比特率确定话音编码和信道编码的比特率划分。普通电话网的编码速率则为16-64kbit/s。其中,特别的有一类编码器称为阔带(wideband)编码器,其比特率为48/56/64kbit(s用于传送50Hz-7kHz的高质量音频信号,主要应用于会议电视系统。
  可变比特率编码是近年来出现的新技术。根据统计,两方通话大约只有40%的时间是真正有声音的,因此一个自然的想法是采用通/断二状态编码。通状态对应有声期,采用固定比特率编码;断状态对应尤声期,传送极低比特率信息(如背景噪声特征),甚至不传任何信息。更复杂的多状态编码还可根据网络负荷、剩余存储容量等外部因素调整其比特率。可变比特率编码主要包含两个算法。一是有声检测(VAD-VoiceActivityDetection),主要用于确定输入信号是话音还是背景噪声,其难点在于正确识别话音段的起始点,确保话音的可懂度。二是舒适噪声生成(CNG-omfortableNoiseGeneration),主要用于接收端重建背景噪声,其设计必需保证发送端和接收端的同步。可变比特率编码的典型应用是数字电路倍增设备、非实时的话音存储和CDMA移动通信系统。
  目前IP网络电话一般采用5~16khit/s固定比特率的中低速率编码器,其效率显著高于传统的PCM编码,复杂度又较可变比特率编码简单。未来发展将采用VAD技术进一步降低比特率,以减小网络电话,尤其是网络多媒体通信的成本。
网络时延
话音编码器时延由以下4个部分组成:
(1)算法时延。编码器通常都是根据一定数量的采样值生成话音编码的,这些值的集合称之为一帧。某些算法还需要知道下一帧的部分数据,称之为“前视"(Lookahead)。因此,算法时延就等于帧长和前视长度之和,其值完全取决于算法,和具体实现无关。  对于PCM编码来说,其值为125阻。对于低速率编码来说,其典型值为20~30ms。
(2)计算时延。即编码器分析时间和解码器重建时间,其值取决于硬件速度。通常可认为计算时延等于或略小于帧长,以确保下一帧数据到齐后,当前帧已处理完毕。
算法时延和计算时延之和称为单向编译码器时延。
(3)复用时延。即装配时延。编码器发送之前和解码器解码之前,必需将整个数据块的所有比特都装配好。
(4)传输时延。其值离散性很大,取决于是采用专用线还是共亨信道。对于共享信道而言,常假设传输时延和复用时延之和约为1个帧长。
  上述4部分时延之和称为单向系统时延,粗略估计至少为3个帧长3话音通信对于时延有较高的要求。对f交互式通话来说,单向时延大于150ms就可感受到通话连续性受到影响,最大可容忍时延可为400-500ms,超过此值只能进行半双工通信。对于具有回声的情况,单向时延不能超过25ms,否则就需装备回声抑制功能。
  需要指出的是,单向系统时延不单决定于话音编码,它还与网络环境等多种外部条件有关。对于不同的系统,即使采用相同的编码器,其系统时延也会有很大的差异。以电路倍增系统和蜂窝电话系统为例,两者采用相同的话音编码器,帧长20ms,前视长度5ms。在蜂窝系统中,每个手机装备1个数字信号处理器(DSP),处理1个编码器。其算法时延为25ms,计算时延为20ms,得单向编译码时延为45ms。又设传输和复用时延为20ms,若为H本或北美TOMA系统,每载波3个用户,则每路编码的传输时延为6.67ms。另,为了减小衰落影响,系统信道采用二帧交织编码,由此引入附加传输时延20ms。由此得该蜂窝系统的单向时延为45+6.67+20=71.69ms。在4倍增电路设备中,设4个群路编码器共用1个DSP。算法时延25ms,计算时延20ms,折算到每群路为5ms,得单向编译码时延为30ms。又设复用和传输时延为20m'l,折算到每路为20/120=0.2ms。由此得该系统的单向时延仅为30.2ms。
  在电话会议应用中,需桥接多个呼叫方。为了使每个人能听到其它所有呼叫者的声音,需要将接收到的各路编码信号先解码,再将解码后的信号相加,最后将和信号重新编码后送出。此过程涉及级联的二次编解码,称为“多重编码"(tandeming),此时系统时延将加倍。
  对于IP网络电话而言,若话音编码帧长20ms,无前视,则单向编解码时延为40ms。设传输时延为20ms,途经10个路由器,每个路由器转接时延3ms,由此可得单向系统时延的典型值为90ms。此估值是以网络没有拥塞为前提条件的。如果路由器数增多,网络发生拥塞,则时延性能将大为恶化。因此,为了确保时延指标,宜采用专线连接,或有良好的带宽管理机制。
复杂度
  复杂度决定了编码器硬件的成本和功耗,也影响到编译码器的实时性。对于诸如手机这样的小型终端设备功耗尤为重要,它关系到设备的价格、体积和电池的大小。通常编码算法都在DSP芯片上运行,其原因是DSP芯片的处理机结构最有利于算法的高效计算。目前低比特率编码器大多用16bit的定点DSP实现。
  复杂度的衡量指标为定点DSP实现所需的处理器能力,以百万指令/秒(MIPS)为计量单位;以及所需的RAM容量。常称<15MIPS的编码器为低复杂度编码器, 30MIPS的为高复杂度编码器。一般说来,压缩比特率越低,其复杂度越高。由于近年来DSP技术的快速发展,至95年定点DSP己可具有40MIPS的能力和4K字的RAM容量,因此各种低比特率话音编码才可能实现。IP网络电话一般选用中低复杂度的低比特率编码。
话音质量
  编解码后恢复的话音质量和许多外界条件有关。一般需考虑:理想条件下的性能、噪声条件下的性能、传输信道误码的影响、多重编解码的影响、和其它标准编码器级联的情况、不同发话者(如高音和低音)的识别、两个讲话者同时发话的情况以及不同语言的影响等。编码比特率越低,恢复信号的质量和输入信号特性的关系越大,而且话音质量的要求又和应用密切相关,因此迄今为止无法给出对话音质量的客观评价准则。
目前常用的3种主观评测法是:
·诊断性音律测试(ORT-DiagnosticRhymeTest)法:用以测量恢复话音的可懂度。
·诊断性可接受性测试(DAM-DiagnosticAcceptabilityMeasuse)法:将话音信号质卧划分为信号质量、背景质里和总体质量三大类6个等级,每个等级按百分制计分。其意图是为设计者提供详尽的反馈意见,但要求测试者具有很高的专业水平。
·平均意见分(MOS-MeanOpinionScore)法:是目前应用最为广泛的测试方法。由20-60个非专职测试者对所听的话音进行综合打分,然后进行统计分析。采用5级计分制,其含义如表3.1所示。
MOS计分含义
  通常按MOS分的高低对编码器质量进行分类。MOS4.0:为长途质量。恢复信号和原信号儿乎不可区分。MOS=3.5~4.0:通信质量。可用于普通电话通信,但有明显可感失真。MOS<3.0:虽可懂,但已缺乏自然性,难以识别发话者。