Vo I P中语音压缩编码技术的研究与性能分析
本文关键字: IP12,网络7,移动通信1,电信网1,电信1,网络电话3,计算机1,信令1,增值业务1,运营商1,融合1, IP电话7, PCM5, ITU4,多媒体1,电话网2,高通2,H.3231,网关1,测试2
江苏通信技术Internet的巨大成功。必将使IP成为未来信息网络的支柱技术 以IP为核心的分组化和以移动通信为核心的无线化已成为电信网络演进的主流方向。TCP/IP的网络技术不但无可置疑地成为数据领域的主导技术而且已经开始进入电信领域其突破口就是电话业务。
IP网络电话是一项涉及计算机网络、信令协议、数字信号处理等多个领域的综合性技术它具有价格低廉、可以灵活地提供各种增值业务、有利于企业建立高效综合服务内部网、有利于运营商开拓新的市场、有助于和IP网络新技术的融合、促进网络技术的发展等独特的优势。其中价格低廉是IP电话能够进入市场的首要因素其根本原因是IP电话均采用语音分组技术、语音压缩编码和统计复用带宽利用率高完成一次通信所需的成本大幅度降低。IP电话中的语音处理主要需要解决两个问题一是在保证一定话音质量的前提下尽可能地降低编码比特率二是在IP网络环境下保证一定的通话质量。前者正是我们要研究的语音编码技术。
1、语音编码技术
1.1 语音编码技术的分类
根据语音编码的发展过程把语音编码技术归纳为以下3类
1.1.1 波形编码
波形编码方式是能够忠实地表现波形的编码方式。语音信号的波形编码力图使重建的语音波形保持原语音信号的波形状态。这类编码器通常是将语音信号作为一般的波形信号来处理所以它具有适应能力强、话音质量好、抗噪抗误码能力强等特点但是波形编码所需的编码速率比较高其速率一般在64 kbit/s16 kbit/s。其中64 kbit/s PCM的语音编码方式是其中的一个代表。
1.1.2 参数编码
参数编码是根据声音的形成模型把声音变换成参数的编码方式。其基本方法是通过对语音信号特征参数的提取及编码力图使重建语音信号具有尽可能高的可懂性即保持原语音的语义。而重建的信号的波形同原语音信号的波形可能会有相当大的差别。参数编码的最大优点是编码速率低通常小于4.8kbit/s有时可以低至600 bit/s2.4 kbit/s。缺点是合成语音质量差 自然度较低对讲话环境噪声较敏感且时延大。
参数编码的典型例子就是语音信号的线性预测编码LPC 它已被公认为是目前参数编码中最有效的方法。
1.1.3 混合编码
混合编码结合了以上两种编码方式的优点采用线性技术构成声道模型不只传输预测参数和清浊音信息而且预测误差信息和预测参数同时传输在接收端构成新的激励去激励预测参数构成的合成滤波器使得合成滤波器输出的信号波形与原始语声信号的波形最大程度的拟合从而获得自然度较高的语声。这种编码技术的关键是如何高效地传输预测误差信息。依据对激励信息的不同处理这类编码主要有多脉冲线性预测编码MPLPC 、规则脉冲激励线性预测编码RPELPC 、码激励线性预测编码CELPC 、低时延的码激励线性预测编码LD-CELPC 。
混合编码克服了原有波形编码器与声码器的弱点而结合了它们的优点在4 kbit/s16 kbit/s速率上能够得到高质量合成语音。在本质上具有波形编码的优点有一定抗噪和抗误码的性能但时延较大。
1.2 语音压缩编码的原理
IP网络电话中的语音处理需要解决的一个重要问题就是在保证一定话音质量的前提下尽可能降低编码比特率。这主要依靠语音编码技术来解决。 IP电话宜使用ITU-T定义的低比特率编码标准其比特率为5.3 kbit/s16 kbit/s均为低复杂度编码算法话音分组长度在30 ms以下话音质量较好。从前面列举的几种编码方式也可看出 同一段语音信号采用不同的编码方式其编码后的比特率各不相同。那么为什么我们能够对语音信号进行压缩编码从而达到降低语音信号的比特率呢?
1.2.1 利用了语音信号的相关性
语音信源是相关信源因此经过采样和量化的信号之间还有很强的相关性为了降低编码速率人们就希望尽可能多地去除语音信号之间的相关性。线性预测编码技术LPC就是一种用来去除语音信号之间相关性的常用技术。语音信号中存在两种类型的相关性其一是在样点之间短时相关性。语音信号在某些短时段中呈现出随机噪声的特性在另一些短时段中则呈现出周期信号的特性其他一些是二者的混合。简而言之语音信号的特征是随时间而变化的只是在一短段时间中语音信号才保持相对稳定一致的特征也就是语音信号的短时平稳性。其二是相邻基音周期之间存在的长时相关性。由于语音信号中的短时相关性和长时相关性很强通过减弱这些相关性使语音信号之间相关性降低然后再进行编码这样就可以实现语音压缩编码 降低比特率。
1.2.2 利用了人耳的听觉特性
利用人耳的掩蔽效应也可以进行语音压缩编码降低比特率。两个响度不等的声音作用于人耳时响度较高的频率成分的存在会影响到对响度较低的频率成分的感觉使其变得不易被察觉这就是我们所说的掩蔽效应。在语音频谱中能量较高的频段即共振峰处的噪声相对于能量较低频段的噪声而言不易被感知。因此在度量原始语音与合成语音之间的误差时可计入这一因素。在语音能量高的频段允许二者的误差大一些从而进一步降低编码比特率。为此引入一个频域感觉加权滤波器Wf来计算二者的误差。感觉加权滤波器的频率响应中的峰、谷值正好与语音谱中相反。所以感觉加权滤波器的作用就是使实际误差信号
的谱不再平坦。而是有着与语音信号谱具有相似的包络形状。这就使误差度量的优化过程与感觉上的共振峰对误差的掩蔽效应相吻合产生较好的主观听觉效果。
1.2.3 线性预测分析——合成编码方法
IP网络电话中所使用的语音信号压缩编码方式大多数是基于合成—分析法的线性预测编码ABS-LPC方法这是一种混合编码方法。线性预测技术就是用过去样点的线性组合来预测当前样点。假如用S n代表原始语音信号用线性预测的方法求出预测器的系统预测系数αi 构成线性预测逆滤波器 Sn通过该滤波器后得到了去除短时相关性的语音信号。再将其进行基音预测建立基音逆滤波器。去除它的长时相关性后就可得到最后的残差信号。残差信号是完全随机的、不可预测的部分。根据速率的不同要求可对残差信号采用不同的量化方法从而得到不同的编码速率让量化后的残差信号作为激励信号依次通过基音滤波器与线性预测滤波器后便得到了合成语音信号见图1。
图1 语音生成模型
编码的过程就是不断改变模型参数使模型更好地适应原始语音信号。为此又引入了合成分析的概念。同时利用人耳的掩蔽效应引入了感觉加权滤波器。综合以上两方面可以得到图2所示的线性预测分析—合成编码的方框图。
图2 线性预测分析—合成编码方案
合成—分析法的基本原理可以概括如下假定—原始信号可以用一个模型来表示这个模型又是由一组参数来决定的随着这组参数的变化模型所产生的合成信号就会改变原始信号与合成信号之间的误差也随之而变化。为了使模型参数能更好地适应原始信号可以规定一个误差准则当误差越小模型合成信号就和原始信号越接近。这样总能找到一组参数使误差最小此时这组参数决定的模型就可以使用。一般在编码端配备编码和本地解码两个部分。配备本地解码的目的是完成合成功能以便计算原始语音信号与合成语音信号之间的误差值。在图2中之所以采用反馈控制是为了求出最佳模型参数使合成语音与原始语音在某种准则下最为接近。
基于合成—分析法的线性预测编码的过程实质上就是不断地改变模型参数使模型更好地适应原始语音信号的过程。原始语音信号被分成帧帧的长度和模型参数决定了编码速率。
2、 IP语音压缩编码算法及性能分析
2.1 常用的语音压缩编码算法
IP电话经常使用ITU定义的两个标准 G.723.1、 G.729。它们采用的都是线性预测分析-合成编码和码本激励矢量量化技术 即混合编码的方法。
2.1.1 G.723协议
G.723协议是一个双速率语音编码建议[1]其两种速率分别是5.3 kbit/s和6.3kbit/s。此协议是一个数字传输系统概况协议适用于低速率多媒体服务中语音或音频信号的压缩算法。它作为完整的H.324系列标准的一部分主要配合低速率图像编码H.263标准。在IP电话网关中 G.723协议被用来实现实时语音编码解码处理。
G.723.1协议的编解码算法中两种速率的编解码基本原理是一样的只是激励信号的量化方法有差别。对高速率6.3 kbit/s编码器其激励信号采用多脉冲最大似然量化MP-MLQ法进行量化对低速率5.3 kbit/s编码器其激励信号采用代数码激励线性预测ACELP法量化。
编码过程是首先选速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号然后把输入语音信号的每240个样点组成一个帧也就是30 ms的帧长。每个帧通过高通滤波器后再分为4个子帧。对于每个子帧计算出10阶线性预测滤波器的系数。为了适于矢量量化把预测系数转化为线性频谱对LSP l inespectrum pair 。量化前的系数构成短时感觉加权滤波器原始语音信号经过该滤波器得到感觉加权语音信号。对于每两个子帧编码器用感觉加权语音信号求得开环基音周期基音周期范围从18个样点到142个样点。此后编码器所进行的操作都是基于60个样点进行的。最后激励信号被量化然后把这些参数和激励信号量化结果传送到解码器。由于帧长为30 ms并存在另外的7.5 ms的前向延迟导致37.5 ms总的编码延迟。
G.723.1协议是为了低速可视会议业务而设计的。 由于可视会议业务每秒钟只传输很少数量的帧而且又有比较大的时延这就是G.723.1允许有30 ms帧长的原因。这个帧长比较大却正好适合可视会议这种情况。而且它的编码速度比较低可以把尽可能多的比特用在图像传输上。
2.1.2 G.729协议
G.729协议是一个能在8 kbit/s速率上实现高质量语音编码的建议也是H.323协议中有关音频编码的标准[2]。在IP电话网关中 G.729协议被用来实现实时语音编码处理。
G.729协议采用的是CS-ACELP即共轭结构算术码激励线性预测的算法。 CS-ACELP以CELP编码模型为基础它把语音分成帧每帧10ms也就是80个采样点。对于每一帧语音编码器从中分析出CELP模型参数其中包括线性预测系数 自适应码本和随机码本的索引值和增益。然后把这些参数传送到解码端解码器利用这些参数构成激励源和合成滤波器从而重现原始语音。
编码过程是首先将速率为64 kbit/s的PCM语音信号转化成均匀量化的PCM信号通过高通滤波器后把输入语音信号的每80个样点组成一个帧也就是10 ms的帧长。对于每个帧用线性预测法求得LP滤波器系数为了适于矢量量化把预测系数转化为LSP。利用合成-分析方法使原始语音和合成语音之间的误差最小来获得最佳激励信号。激励信号的量化是通过两个码本来实现的即自适应码本和随机码本。 自适应码本反映的是长时预测结果也就是基音预测结果。随机码本反映的是经过长时预测和短时预测后的残留信号。
2.2 性能分析与比较
语音编码的主要问题是怎样在编码质量、编码速率、算法复杂度以及抗误码性能、编解码时延等方面求得最佳。这几个因素相互联系密切相关。下面就这些方面对G.729与
G.723.1系统进行分析与比较并给出了实验的结果[3]。
2.2.1 编码质量
编码质量是衡量语音编码优劣的关键性能之一对它的评价通常有客观评价与主观评价两种。信噪比是衡量语音编码质量的客观标准。其计算可采用长时信噪比和短时信噪比两种准则。由于在语音信号中小能量占信号能量的比率较小而恰恰小信号对主观听音效果又有比较大的影响因此长时信噪比不能反应小能量量化的质量在语音信号处理中经常采用短时信噪比。设每段有M个语音样点则第m段的分段信噪比定义为
其中分式的分子分母分别表示M个语音样点的总能量和量化噪声的总能量。如果输入语音共有N段则平均分段信噪比为
此次试验分别对男声、女声、童声以及混声进行了测试它们得到的信噪比尤其是时域信噪比并不很高然而经过主观评价即MOS mean opinion score分评价它们的听音质量还相对较高其结果如表1所示 由此说明了基于参数编码与波形编码的语音编码器的不同。
表1 ITU-T语音编码标准的比较
项目 G.729 G.723.1 G.729annexA
比特率/ kbit/s 8 5.3/6.3 8
帧大小/ms 10 30 10
头开销/ms 5 1.5 5
MOS 4 3.7 4
出台时间 1995年 1995年 1996年
2.2.2 编码速率
就目前而言与IT U-T的其他编码标准相比 G.723.1的码速是最低的。它的码率为
5.3/6.3 kbit/s在编码码率方面拥有优势。 G.729语音编码速率为8 kbit/s在编码速率方面仅次于G.723.1 因而它们都较好地解决了通信过程中带宽不足的矛盾有良好的应用前景。
2.2.3 编解码复杂度
编解码的复杂度与语音编码的质量有密切的关系在同样的码率下采用复杂的算法将获得更好的语音质量。表2给出了G.729与G.723.1在硬件实现上所需的资源。 G.729在时延方面较G.723.1有优势在复杂度方面 G.723.1相对G.729较优但是G.729annexA却有更大的优势。
表2 G.723.1 G.729与G.729annexA的比较
项目 G.723.1 G.729 G.729annex A
比特率/ kbit/s 5.3/6.4 8.0 8.0
帧长/ms 30 10 10
头开销/ms 7.5 5 5
整个编码时延/ms 37.5 15 15
指令/ 百万条/s 16 20 10.5
RAM/byte 2 200 3000 2000
2.2.4 抗误码性能
抗误码性能是衡量语音编码质量的因素之一。测试表明当随机误差为0.1% G.729编码系统的性能与32 kbit/s G726ADPCM相当 当误码率为10%人耳虽能感觉到语音质量的下降但仍能听懂语音含义 G.723.1抗误码性能与G.729基本相当。
2.2.5 编解码时延
增加算法的复杂度可以提高语音的编码质量。但往往也带来编解码的时延在实时语音通信中对通话质量有很大影响。对于G.729系统而言由于码率为8kbit/s每帧80个样点 因此帧大小为10 ms再加上头开销5ms整个系统的编解码时延为15ms大大低于G.723.1的37.5 ms的时延帧大小为30ms再加上头开销7.5 ms 。因此在编解码时延方面G.729较G.723.1为优。
3、结论
混合编码中把激励模型和语音的时
域波形结合到一起从而改善了合成语音的质量。以上两种语音压缩编码算法的主要区别在于激励模型的不同。
虽然IP电话目前正处于蒸蒸日上的阶段。但它也存在这样或那样一些不尽如人意的方面。如何提高IP分组语音通信的质量或者更一般地说如何在IP网络上实现包括实时通信业务在内的综合业务通信这正是我们需要进一步研究的。
7月4日是美国独立日,大致就是国庆节的意思吧。hostodo今年提前搞了个VPS大促销活动,4款便宜VPS,相当于7折,续费不涨价,本次促销不定时,不知道有多少货,卖完为止。VPS基于KVM虚拟,NVMe阵列,1Gbps带宽,自带一个IPv4+/64 IPv6,solusvm管理,送收费版DirectAdmin授权,VPS在用就有效! 官方网站:https://www.hostodo.com ...
华纳云(HNCloud Limited)是一家专业的全球数据中心基础服务提供商,总部在香港,隶属于香港联合通讯国际有限公司,拥有香港政府颁发的商业登记证明,保证用户的安全性和合规性。 华纳云是APNIC 和 ARIN 会员单位。主要提供香港和美国机房的VPS云服务器和独立服务器。商家支持支付宝、网银、Paypal付款。华纳云主要面向国内用户群,所以线路质量还是不错的,客户使用体验总体反响还是比较好...
CloudCone 商家在以前的篇幅中也有多次介绍到,这个商家也蛮有意思的。以前一直只有洛杉矶MC机房,而且在功能上和Linode、DO、Vultr一样可以随时删除采用按时计费模式。但是,他们没有学到人家的精华部分,要这样的小时计费,一定要机房多才有优势,否则压根没有多大用途。这不最近CloudCone商家有点小变化,有新人洛杉矶优化线路,具体是什么优化的等会我测试看看线路。内存CPU硬盘流量价格...