综合分析语音编码方法技术

技术编号:3047712 阅读:204 留言:0更新日期:2012-04-11 18:40
一种综合分析语音编码方法,用于已数据化成分为lst取样的nst子帧的连续子帧的语音信号S的包括以下步骤: -为确定一个短期综合过滤器(60)的参数的语音信号的线性预测分析; -为检验信号的语音帧以及为每个语音帧,确定信号的话音等级(MV)和查寻一个长期预测延迟的一个间隔的语音信号的开环分析; -为了对至少话音帧的子帧的一些,选择包含在查寻间隔内并且构成长期综合过滤器(66)的一个参数的一个长期预测延迟,进行语音的闭环预测分析; -对每个子帧确定一个随机激发,以便最小化在语音信号和由长期及短期综合滤波器的随机激发之间的感知加权差别, 其特征在于,在开环分析步骤中,确定与每个话音帧有关的查寻间隔,以使它包含依靠上述帧的话音等级的延迟的一个量(N↓[1],N↓[3])。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及综合分析语音编码。申请公司已经在欧洲专利应用0195487,0347307和0469997中,特别描述了这个已开发出来的语言编码器。在综合分析语音编码器中,为了获得模型化元音区的变换函数的一个短期综合滤波器的系数,执行语音信号的线性预测。这个系数与表示一个激发的特性用于短期综合滤波器的参数一起送到译码器。在大多数目前的编码器中,为了表示考虑到语音的音调的一个长期综合滤波器的特性,也查找语音信号的长期自相关数。当这个信号是语音时,这个激发实际上包含可以由过去激发表示,通过语言信号的TP取样延迟并录属于一个增益gP的一个可预测成份。在译码器还要重新构成这个具有一个形式为1/B(z)的转换函数的长期综合滤波器,其中B(z)=1-gPz-TP个激发的剩余不可预测部分称为随机激发。在已知的CELP(“激发编码线性预测”)编码器中,随机激发包括一个预定字典中查找的一个矢量。在已知的MPLPC(“多脉冲线性预测编码”)编码器中,随机激发包括数量的位置由编码器查找由的脉冲。通常,CECP编码器对低数据传输速率更适用,但它们比MPLPC编码器执行起来更复杂。为了确定长期预测延迟,用到一个闭环分析,一个开环分析或者这两者的组合。在计算总量的项目中不需要开环分析,但是限制了它的精确度。相反地,闭环分析要求更多的计算,当它直接用于减小语音信号和综合信号间感知加权差值时变得更可靠,在某些情况下,为了限制在闭环分析器内部将要查寻预测延迟的间隔,首先,执行一个开环分析。然而,由于考虑到这个延迟可能会很陡的,实际情况这个查寻间隔必须保持相对宽度。本专利技术特别是针对在语音编码器,求得在激发的长期部分的建模质量和查找相应延迟的复杂性之间的一个好的折衷方案。这样,本专利技术建议了一种,它用于把数字化成被分为nst子帧的连续帧的语音信号编码,它包括下列几步为确定一个短期综合滤波器的参数,进行语音信号的线性预测分析,为了检验信号的话音帧,并对每个话音帧确定信号的话音等级,和用于对一个长期预测延迟的一个查找间隔,执行一个语音信号的开环分析;为了对至少一些话音帧的子帧,选择包含在查寻间隔内的一个长期预测延迟和长期综合滤波器的构成参数,执行语音信号的闭环预测分析;为每子帧确定一个随机激发,以便最小化在语音信号和由长期和短期综合滤波器滤波的随机激发之间的一个感知加权差别。在开环分析步骤中,确定与每个话音帧有关的查寻间隔,以便它包含一些依赖于上述帧的话音等级的延迟。因此,在闭环模式中被测试的延迟量可以匹配到这个帧的话音模式。通常,查寻间隔的宽度对大多数话音帧将会更小,以便考虑它们更高的谐波的稳定性。对这些高话音帧,在查寻间隔内的延迟的差别定量可以保留一个位或更多位,保留的这个位或这些位可以再分配给感知的重要参数,例如,长期预测增益,这些参数提高了语音财生的质量。参照附图,本专利技术的其它的特征和优点将在下列的优选描述中得以体现,但是并不限于示范性的实施例,其中-附图说明图1是实施本专利技术的一个加入语音编码器的一个无线通信站的框图;-图2是可以接收一个由图1的站产生了一个信号的一个无线通信站的框图;-图3到6是说明用于图1的语音编码器中的开环LTP分析的一个处理过程的流图;-图7是说明确定用在图1的语音编码器中的加权综合滤波器的脉冲响应的一个处理过程的一个流图;-图8到11是说明用在图1的语音编码器中对随机激发查寻处理过程的流图。实施本专利技术的语音编码器依赖一个数字压缩技术可以适用于多种语音传送类型和/或存储系统。在图1的例子中,语音编码器16形成一个移动无线通信站的一个部分。语音信号S是以典型地等于8kHz的一个频率取样的数字信号。信号S是通过从一个送话器20接收经过放大和滤波的输出信号的一个模拟数字转换器18的输出信号。转换器18把语音信号S变为自身被再分为1st取样的nst子帧的连续帧的形式。一个20ms帧典型地包括以8kHz上16位的1st=40取样的nst=4子帧。编码器16的上游,语音信号S也可以用传统的波形处理,如海明滤波。语音编码器16以实际比语音信号S的速率低的一个数据速率传送一个二进制序列,并把这个序列运用到一个信道编码器22。信号编码器22的功能是把冗余位引入这个信号,以便允许任何传送误差的检测和/或校正。然后,调制器24把从信道编码器22的输出信号调制到一个载波频率上,并把这个调制信号发送到空气媒介上。语音编码器16是一个综合分析编码器。这个编码器16一方面确定具有模型化扬声器有声区的短期综合滤波器的特征参数,另一方面,运用短期综合滤波器的激发序列根据一个感知加权判别式,供给一个构成语音信号S估计值的一个同步信号。短期综合滤波器具有一个公式为1/A(z)的传递函数,其中A(z)=1-Σi=1qai.z-i]]>系数ai由用于语音信号S的短期线性预测分析的模块26来确定。ai′s是语音信号s的线性预测的系数。线性预测的基数q典型地是基数10。可以由用于短期线性预测的模块26使用的方法已在语音编码领域中熟知的。例如,模块26实施Durbin-LevinS0n算法(见J.Maknoul“线性预测一个指导性的评论”,PROc,IEEE,63卷4号,1975年4月,P561-580页)。获取的系数ai提供给把它转换成线状谱参数(LSP)的模块28。由LSP参数表示的预测参数ai被频繁地用于综合分析语音编码器中。LSP参数是以降序的q数的cos(2πfi),这个q被归一化为线状谱频率(LSF)f1(1≤i≤q),例如复数exp(2πjfi),其中i=1,3,…,g-1,q+1且fq+1=0.5,是由Q(z)=A(z)+z-(q+1)·A(Z-1)定义的多项式Q(z)的根,并且复数exp(2πjfi),i=0,2,4…,q且f0=0,是由Q*(z)=A(z)-z-(q+1)·A(z-1)定义的多项式Q*(z)的根。LSP参数可以由转换模块用契比雪夫多项式的传统方法(见P·Kabal和R·R Ramachandran“利用契比雪夫多项式的线状谱频率的计算”,IEEE Trans Assp,34卷,6号1986年1419-1426页)来获得。它是由一个定量模块30获得的LSP参数的定量值,这些参数被送到译码器,以恢复短期综合滤波器的系数ai。这个系数ai可以用给出的下式被简单地恢复Q(z)=(1+z-1)Πi=1,3,…,q-1(1-2cos(2πfi)z-1+z-2)]]>Q*(z)=(1-z-1)Πi=2,4,…,q(1-2cos(2πfi)z-1+z-2)]]>and A(z)=[Qz)+Q*(z)]/2为避免短期综合滤波器的传递函数发生突发变化,LSP参数在预测参数ai从它们被演绎出来之前插入。这个插入是在这个信号的每一帧的第一子帧上执行的。例如,若LSPt和LSPt-1分别表示对帧t的子帧0,1,2,…,nst-1,Lspt(o)=0.5LSPt-1+0.5LSPt,LSPt(1)=0.25LSPt-1+0.75LSPt和LSPt(2)=…=LSPt(nst-1)=LSPt。然后,在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种综合分析语音编码方法,用于已数据化成分为Ist取样的nst子帧的连续子帧的语音信号S的包括以下步骤-为确定一个短期综合过滤器(60)的参数的语音信号的线性预测分析;-为检验信号的语音帧以及为每个语音帧,确定信号的话音等级(MV)和查寻一个长期预测延迟的一个间隔的语音信号的开环分析;-为了对至少话音帧的子帧的一些,选择包含在查寻间隔内并且构成长期综合过滤器(66)的一个参数的一个长期预测延迟,进行语音的闭环预测分析;-对每个子帧确定一个随机激发,以便最小化在语音信号和由长期及短期综合滤波器的随机激发之间的感知加权差别,其特征在于,在开环分析步骤中,确定与每个话音帧有关的查寻间隔,以使它包含依靠上述帧的话音等级的延迟的一个量(N1,N3)。2.根据权利要求1的方法,其特征在于对长期预测延迟包含少数延迟比其他话音帧具有最大话音等级的那些帧的查寻间隔。3.根据权利要求1或2的方法,其特征在于与帧有关的开环分析包括每个使在各自独立的上述帧的子帧上取长期预测增益的开环估计值的最大nst基本延迟(Kst)的确定,然后,比较第一预定门限(S0)与在相应子帧有关的nst的基本延迟的基础上,获得的帧上的长期预测增益的第一开环估计值,以检验此帧是否是话音,并且,在于若此帧被检验为话音,则开环分析还包括对每个子帧侯选延迟的一个表(Ist)的确定,对于这些侯选延迟,在子帧上的预测增益的开环估计值比与用于子帧的基本延迟有关的估计值的一个定义值比例(β)大,这因为在帧上的长期预测增益的第二开环估计值是一个最大值用到的侯选延迟是从上述表中选出来的,在对应在nst最佳延迟的基础上获得的一个侯选延迟的帧上的第二开环,它们位于中心在上述的侯选延迟的N1延迟的间隔内,上述延迟分别在上述间隔上取nst子帧上的预测增益的开环估计值的最大值,因为帧的话音等级的确定包括在帧上的预测增益在第二最大估计值和至少一个其它的预定门限(S1,S2)之间的一个比较,并且因为在完成开环分析时确定的查寻间隔在上述选择延迟的中心上。4.根据权利要求1或2的方法,其特征在于与帧有关的开环分析包括在上述帧上取长期预测增益的第一开环估计值的最大值的一个基本延迟(k)的确定,还包括为确定检验帧是否为话音,进行在第一预定门限(S0)和在此帧上的长期预测增益的第一最大化估计值之间的比较;其中,若帧被检验为话音,开环分析还包括在帧上的预测增益的开环/估计值比与基本延迟有关的估计值的定义的分数(β)高的侯选延迟的表(I)的确定;在此帧上的长期预测增益的一个第二开环估计值为一个最大值的侯选延迟是从上述表中选出来的,在此帧上的第二开环估计值分配了一个在nst最优延迟的基础上获得,并位于中心在上述侯选延迟的N1延迟的一个间隔内的一个侯选延迟,上述估计值是分别在上述间隔的取在nst子帧上的预测增益的开环估计值的...

【专利技术属性】
技术研发人员:威廉姆纳瓦罗米歇尔莫克
申请(专利权)人:马特瑞通讯法国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1