售前电话
135-3656-7657
售前电话 : 135-3656-7657
话音编码的要求可用编码器属性(attribute)来表示,主要属性有比特率、时延、杂复度和话音质量4项。在具体实现中,这些属性往往是有矛盾的,因此必须根据实际应用进行取舍,对各个属性提出折衷的要求,从而确定合适的编码方法。
比特率
降低比特率往往是话音编码的首要目标,它直接关系到传输资源的有效利用和网络容量的提高。根据比特率和输入话音的关系可将编码器分为两类:固定比特率和可变比特率编码器。
现有大部分编码标准都是固定比特率编码,其范围为0.8-64kbit/s。其中,保密电话的比特率最低,为0.8-4.8kbit/s,其原因是它的通信信道带宽限定为4.8kbit/s以下。数字蜂窝移动电话和卫星电话的编码器比特率为3.3-13kbit/s,它使数字蜂窝系统的容量可达模拟系统的3-5倍。需要注意的是,蜂窝系统中常伴有信道编码,使总的比特率可达20-30kbit/s。实际情况往往是根据规定的无线信道比特率确定话音编码和信道编码的比特率划分。普通电话网的编码速率则为16-64kbit/s。其中,特别的有一类编码器称为阔带(wideband)编码器,其比特率为48/56/64kbit(s用于传送50Hz-7kHz的高质量音频信号,主要应用于会议电视系统。
可变比特率编码是近年来出现的新技术。根据统计,两方通话大约只有40%的时间是真正有声音的,因此一个自然的想法是采用通/断二状态编码。通状态对应有声期,采用固定比特率编码;断状态对应尤声期,传送极低比特率信息(如背景噪声特征),甚至不传任何信息。更复杂的多状态编码还可根据网络负荷、剩余存储容量等外部因素调整其比特率。可变比特率编码主要包含两个算法。一是有声检测(VAD-VoiceActivityDetection),主要用于确定输入信号是话音还是背景噪声,其难点在于正确识别话音段的起始点,确保话音的可懂度。二是舒适噪声生成(CNG-omfortableNoiseGeneration),主要用于接收端重建背景噪声,其设计必需保证发送端和接收端的同步。可变比特率编码的典型应用是数字电路倍增设备、非实时的话音存储和CDMA移动通信系统。
目前IP网络电话一般采用5~16khit/s固定比特率的中低速率编码器,其效率显著高于传统的PCM编码,复杂度又较可变比特率编码简单。未来发展将采用VAD技术进一步降低比特率,以减小网络电话,尤其是网络多媒体通信的成本。
网络时延
话音编码器时延由以下4个部分组成:
(1)算法时延。编码器通常都是根据一定数量的采样值生成话音编码的,这些值的集合称之为一帧。某些算法还需要知道下一帧的部分数据,称之为“前视"(Lookahead)。因此,算法时延就等于帧长和前视长度之和,其值完全取决于算法,和具体实现无关。 对于PCM编码来说,其值为125阻。对于低速率编码来说,其典型值为20~30ms。
(2)计算时延。即编码器分析时间和解码器重建时间,其值取决于硬件速度。通常可认为计算时延等于或略小于帧长,以确保下一帧数据到齐后,当前帧已处理完毕。
算法时延和计算时延之和称为单向编译码器时延。
(3)复用时延。即装配时延。编码器发送之前和解码器解码之前,必需将整个数据块的所有比特都装配好。
(4)传输时延。其值离散性很大,取决于是采用专用线还是共亨信道。对于共享信道而言,常假设传输时延和复用时延之和约为1个帧长。
上述4部分时延之和称为单向系统时延,粗略估计至少为3个帧长3话音通信对于时延有较高的要求。对f交互式通话来说,单向时延大于150ms就可感受到通话连续性受到影响,最大可容忍时延可为400-500ms,超过此值只能进行半双工通信。对于具有回声的情况,单向时延不能超过25ms,否则就需装备回声抑制功能。
需要指出的是,单向系统时延不单决定于话音编码,它还与网络环境等多种外部条件有关。对于不同的系统,即使采用相同的编码器,其系统时延也会有很大的差异。以电路倍增系统和蜂窝电话系统为例,两者采用相同的话音编码器,帧长20ms,前视长度5ms。在蜂窝系统中,每个手机装备1个数字信号处理器(DSP),处理1个编码器。其算法时延为25ms,计算时延为20ms,得单向编译码时延为45ms。又设传输和复用时延为20ms,若为H本或北美TOMA系统,每载波3个用户,则每路编码的传输时延为6.67ms。另,为了减小衰落影响,系统信道采用二帧交织编码,由此引入附加传输时延20ms。由此得该蜂窝系统的单向时延为45+6.67+20=71.69ms。在4倍增电路设备中,设4个群路编码器共用1个DSP。算法时延25ms,计算时延20ms,折算到每群路为5ms,得单向编译码时延为30ms。又设复用和传输时延为20m'l,折算到每路为20/120=0.2ms。由此得该系统的单向时延仅为30.2ms。