专注SIP通讯产品与方案

视音频信息概念

       在现代通信系统中尽管数据业务与多媒体通信业务发展非常迅速,但模拟与数字视音频业务在所有通信业务中仍然占有主要地位。在此类业务中包括普通电话、IP电话、移动电话、数字电话、可视电话、会议电视、广播电视、数字视频广播、点播电视等各种视音频业务。
音视频概念
        视音频信息基本概念
       在现代通信技术中音频信息主要是指由自然界中各种音源发出的可闻声和由计算机通过专门设备合成的语音或音乐。按表示媒体的不同,此类声音主要有三类,即语音、音乐声和效果声等。音频信号是随时间变化的连续媒体,对音频信号的处理要求有比较强的时序性,即较小的延时和时延抖动。对音频信号的处理涉及音频信号的获取、编解码、传输、语音的识别与理解、语音与音乐的合成等内容。
       视频信息即活动或运动的图像信息,它由一系列周期呈现的画面所组成,每幅画面称为一帧,帧是构成视频信息的最基本单元。视频信息在现代通信系统所传输的信息中占有重要的地位,因为人类接受的信息约有70%来自视觉,视频信息具有准确、直观、具体生动、高效、应用广泛、信息容量大等特点。
1.听觉特性与音频信号
(1)人的听觉特性
      ① 人对声音强弱的感觉
       通过对大量人群的测量发现,当声音信号的强度按指数规律增长时,人会大体上感到声音在均匀地增强,即将声音声强取对数后,才与人对声音的强弱感相对应。根据人类听觉的这一特点,通常用声强值或声压有效值的对数来表示声音的强弱.称为声强級L1或声压级Lp单位为分贝(dB)。
       ② 人对声音频率的感觉
       人对声音频率的感觉表现为音调的高低,且当声音的频率按指数规律上升时,音调的感觉线性升高。这意味着只有对声音信号的频率取对数,才会与人的音高感觉成线性关系。 
       为了适应人类听觉的音高感规律,在声学和音乐当中表示频率的坐标经常采用对数刻度。音乐里为了使音阶的排列使听起来音高的变化是均匀的,音阶的划分是在频率的对数刻度上取等分得到的。
       ③ 人类听觉的频响特性
       人类听觉对声音频率的感觉不仅表现为音调的高低,而且在声音强度相同条件下声音主观感觉的强弱也是不同的,即人类听觉的频率响应不是平坦的。此外,人的听觉频响还随声压级的变化而变化。人类听觉频响的特点是:声压级越高,听觉频响越平直;随声音声压级的降低,听觉频响变坏,低频响应下降明显。对于高于20kHz和低于20Hz的声音信号,不论声压级多高,一般人也不会听到,即人的听觉频带为20Hz〜20kHz,在此频率范围内的声音称为“可闻声气高于20kHz的声音称为“超声”,低于20Hz的声音的称为“次声”。不论声压级高低,人对3kHz〜5kHz频率的声音最敏感。
       ④ 人类听觉的掩蔽效应
       在人类听觉系统中的另一个现象是一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。掩蔽效应常在电声系统中被加以利用,使有用声音信号掩蔽掉那些不需要的声音信号,并根据有用信号的强度来规定允许的最大噪声强度。此外,在音频信号数字编码技术中,还可利用人类听觉系统的掩蔽效应实现高效率的压缩编码。
(2)音频信号特性
       对于不同类型的发声体来说,其声音信号的频谱分布各不相同。一般人讲话声音的主要能量分布较窄,以频带下降25dB计大概为100Hz〜5kHz,因此在电话通信中每一话路的频带一般限制在30()Hz〜3.4kHz即可将语声信号中的大部分能量发送出去.同时保持一定的可懂度和声色的平衡。相对于语音频谱,歌唱声的频谱要宽得多,一般男低音可唱到比中央C低十三度的E音,其基频为82.407Hz,而女高音可唱到比中央C高两个八度的C音或更高,其基频为1046.5Hz,它的第十次谐波已经超过10kHz。与人的发声器官相比,各种乐器发声的频谱范围则明显要宽的多,从完美传送和记录音乐的角度,电声设备的频带下限一般要到20Hz以下,而其频带上限一般要到20kHz以上。
       实际声音信号的强度在一个范围内随时随刻发生着改变,一个声音信号的动态范围是指它的最大声强与最小声强之差,并用dB表示。当用有效声压级表示时,一般语音信号大概有20-40dB的动态范围;交响乐、戏剧等声音的动态范围可高达60〜80dB。当按峰值声压级表示时,有些交响乐的动态范围可达100dB或更高。
2. 视频技术基础
       视频技术是利用光电和电光转换原理,将光学图像转换为电信号进行记录或远距离传输,然后还原为光图像的一门技术。
(1)视频信号与图像扫描
       视频技术中实现光学图像到视频图像信号转换的过程通常是在摄像机中完成的。当被摄景物通过摄像机镜头成像在摄像器件的光电导层时,光电靶上不同点随照度不同激励出数目不等的光电子,从而引起不同的附加光电导产生不同的电位起伏,形成与光像相对应的电图像。该电图像必须经过扫描才能形成可以被处理和传输的视频信号。
       客观景物图像对于人眼的感觉来说.可以被看成是由很多有限大小的像素组成的,每一个像素都有它的光学特性和空间位置,并且随时间变化。根据人眼对图像细节的分辨能力和对图像质量的要求,要得到较高的图像质量,每幅图像至少要有几十万个以上的像素。显然,要用几十万个传输通道来同时传送图像信号是十分困难的,因此必须采用某种方式完成对图像的分解与变换.使代表像素信息的物理量能够用时间的一维函数来表达。在电视系统中,对景物图像的像素分解与合成,以及图像的时空转换是由扫描系统完成的。
       利用人眼的视觉惰性,在发送端可以将代表图像中像素的物理量按一定顺序一个一个地传送,而在接收端再按同样的规律重显原图像。只要这种顺序进行的足够快,人眼就会感觉图像上的所有像素在同时发亮。在电视技术中.将这种传送图像的既定规律称为扫描。如图2.1所示,摄像管光电导层中形成的电图像在电子束的扫描下顺序地接通每一个像素,并连续地把它们的亮度变化转换为电信号;扫描得到的电信号经过单一通道传输后,再用电子束扫描具有电光转换特性的荧光屏,从电信号转换成光图像。在电视系统应用的早期,普遍使用的电真空摄像和显像器件均采用电子束扫描来实现光电和电光转换;而随着CCD/CMOS摄像机和平板显示器件投入使用,利用各种脉冲数字电路便可实现上述转换。对每一幅图像,电视系统是按照从左至右、从上到下的顺序一行一行地来扫描图像的。对于每一幅图像来说.扫描行数越多,对图像的分解力越高,图像越细腻;但同时视频信号的带宽也就越宽.对信道的要求也越高。
 
电视系统扫描原理示意图
图2.1   电视系统扫描原理示意图
       和在电影中一样,为了能够得到连续的、没有跳跃感的活动图像,视频系统也必须在每秒内传输二十帧以上的图像,以满足人眼对图像连续感的要求。由于历史上的原因,目前国际上存在着25帧/秒和30帧/秒两种帧频制式。然而,每秒20〜30帧的图像显示速率尚不能满足人眼对图像闪烁感的要求。为了在不增加电视系统传输帧率和带宽的条件下减小闪烁感,现有各种制式的电视系统均釆用了隔行扫描方式。隔行扫描方式将一帧电视图像分成两场,第一场传送奇数行,称为奇数场;第二场传送偶数行,称为偶数场。隔行扫描方式的采用较好地解决了图像连续感、闪烁感和电视信号带宽的矛盾。
       在电视系统中除传送图像信号本身以外,还需要传送同步信号以标记图像行、场扫描的开始与结束。因此,图像信号、同步信号等经过合成,构成复合电视信号。
(2)彩色电视系统
       根据人眼的彩色视觉特性,在彩色重现过程中并不要求还原原景物的光谱,重要的是获得与原景物相同的彩色感觉。彩色电视系统是按照三基色的原理设计和工作的。三基色原理指出.任何一种彩色都可由另外的三种彩色按不同的比例混合而成。这意味着,如果选定了三种标准基色,则任何一种彩色可以用合成它所需的三种基色的数量来表示。彩色电视系统正是基于人眼机能和三基色原理,设计出了彩色摄像机和显示器。 
       在通常的彩色电视摄像机中,模仿人眼中的三种锥状细胞利用三个摄像管分别拾取景物光学图像中的红、绿、蓝分量,形成彩色电视信号中的红、绿、蓝三个基色分量。加性混色法则构成了显示器彩色显示的基本原理。在彩色荧光屏的内表面涂有大量的、由红绿蓝三种颜色为一组组成的荧光粉点。荧光粉是一种受电子轰击后会发光的化合物.其发光强度取决于电子束的强度。图像重现时,将接收到的彩色电视信号中的红、绿、蓝分量分别控制三个电子枪轰击相应颜色的荧光粉点发光;由于荧光粉点很小,在一定距离观看时三种基色发出的光经过人眼的混合作用,使我们看到均匀的混合色。最终人眼所看到的颜色,则是由三种基色的比例所决定的。在混色原理方面,主动发光型的平板显示器件(如等离子显示)大致与彩色荧光屏相同;但被动发光型的平板显示器件(如液晶显示),其三种基色是由三种颜色的滤光片在白色背光的照射下发出的,三种基色信号通过控制每种颜色滤光片的通光量实现混色。平板显示器件中图像重建过程的扫描功能,通常是在脉冲数字电路作用下完成的,不再需要电子束的聚焦偏转,非常容易由集成电路加以实现。
       在彩色电视发展的初期.由于已经存在了相当数量的黑白电视机和黑白电视台,为了保护消费者和电视台的利益并扩大彩色电视节目的收视率,要求彩色电视系统的设计必须考虑与已有黑白电视的兼容。为此,在彩色电视系统中不是传送彩色电视信号中的红、绿、蓝三个基色分量,而是传送一个亮度分量和二个色差分量。在发送端,亮度分量和二个色差分量通过对红、绿、蓝三个基色分量的矩阵变换得到;接收端再通过矩阵逆变换还原成三个基色分量显示。当黑白电视机接收到彩色电视信号时,它只利用其亮度分量实现黑白图像显示;而彩色电视机接收黑白电视信号时,它将黑白电视信号当作其亮度信号同样实现黑白图像显示,进而实现彩色电视与黑白电视的上下兼容。在彩色电视中由三种基色R、G、B构成亮度信号的比例关系如下:
Y=0.299R+0.587G+0.114B (2-1)
式(2-1)即为电视系统的亮度方程。至于二个色差信号,则是分别传送红基色分量和蓝基色分量与亮度分量的差值信号,即U和V。                                                                                              U=K1(B-Y)
                   V=K2(R-Y) (2-2)
式(2-2)中,K1K2为加权系数。 
      从数据压缩的角度来看,也希望传送的是Y、U、V而不是R、G、B,因为Y、U、V之间是解除了一定相关性的三个量。电视系统中的一个重大问题就是如何用一个通道来传送上述三个信号Y、U、V。在模拟电视阶段,对于这三个信号的不同传输方式形成了三大不同的彩电制式:PAL制.NTSC制和SECAM制。这三种制式之间的不同之处在于对色度信号传送所釆取的不同处理方式.
       为满足彩色电视与黑白电视的兼容性,则需在原有黑白电视信道带宽的条件下,同时传送亮度信号丫和两个色差信号由于人眼对于彩色细节的分辨力低于对亮度细节的分辨力,因此色差信号U和V可以用比亮度信号窄的频带来传送,在我国的PAL/D制彩电标准中,亮度Y的带宽为6MHz,U和V的带宽为1.3MHz。
(3)视频信号频谱特点
       电视系统是通过行、场扫描来完成图像的分解与合成的.尽管图像内容是随机的,但视频信号仍具有行、场或帧的准周期特性。通过对静止图像电视信号进行频谱分析可知:它是由行频、场频的基波及其各次谐波组成的,其能量以帧频为间隔对称地分布在行频各次谐波的两侧。而对活动图像的电视信号,其频谱分布为以行频及其各次谐波为中心的一簇簇连续的梳状谱。对于实际的视频信号,谐波的次数越高,其相对于基波振幅的衰减越大。
       在整个视频信号的频带中,没有能量的区域远大于有能量的区域。根据这一性质,模拟彩色电视系统利用频谱交错原理将亮度信号和色差信号进行半行频或1/4行频间置,完成彩色电视中亮度信号和色度信号的同频带传输。我国采用的PAL-D制彩色电视信号,亮度信号带宽为6MHz;在美、日等国采用的NTSC制电视系统中亮度信号带宽为4.2MHz。由于人眼对于色度信号的分辨率远低于对亮度信号的分辨率,因此在彩色电视系统中色度信号的带宽一般均低于1.3MHz,且调制在彩色副载频上置于亮度信号频谱的高端,以减少亮色信号之间的串扰。