CELP语音编码的话音指数控制制造技术

技术编号:3045974 阅读:190 留言:0更新日期:2012-04-11 18:40
一种利用综合分析(ABS)编码器提高语音合成质量的方法。由于浊语音信号中的周期性程度对于浊语音的不同片断而言有显著差异,在综合分析型的语音编码(例如,CELP)中会产生不稳定的感知质量。因此,本发明专利技术利用指示语音信号的周期性程度的话音指数控制和改进ABS型语音编码。所述话音指数可被用于通过控制编码器和/或解码器来提高质量稳定性,其可以用于:固定码本(301)短期增强,包括频谱倾斜;感知加权滤波器;子固定码本确定;LPC插值(304);固定码本音调增强;后音调增强;在解码器高频带的噪声注入;LTP正弦窗;信号分解等。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术主要涉及语音编码,更确切地,涉及码激励线性预测(CELp)语音编码。
技术介绍
一般而言,语音信号可被限制频带为约10kHz而不会影响感知。然而,在远程通信中,语音信号带宽通常被更严格地限制。众所周知,电话网络将语音信号的带宽限制在300Hz到3400Hz之间,称为“窄带”。这样的带宽限制导致了电话语音中的特征音。300Hz的下限和3400Hz的上限均会对语音质量产生影响。在大多数数字语音编码器中,语音信号被以8kHz采样,导致最大信号带宽为4kHz。然而,在实际中,通常将信号的带宽限制为在较高频率端约为3600Hz。在较低频率端,截止频率通常在50Hz和200Hz之间。所述窄带语音信号需要8kb/s的采样频率,且提供了一种被称为长话质量的语音质量。尽管所述长活质量对于电话通信而言已经足够,但是,对于一些新兴应用,例如,电话会议,多媒体服务以及高清晰度电视,需要更好的质量。通过增加带宽,所述通信质量可以得到提高以进行上述应用。例如,通过将采样频率增加到16kHz,可提供范围从50Hz到约7000Hz的更宽的带宽,其被称为“宽带”。将较低频率范围扩展到50Hz增加了自然度、现场感和舒适度。在频谱的另一端,较高频率范围被扩展到7000Hz,可以增加可懂度,使得更易于区分摩擦音。在数字语境下,通过一种众所周知的被称为综合分析(ABS)的方法对语音进行合成。综合分析也被称为闭环方法或波形匹配方法。对于中或高比特率,其提供了比其它方法相对更好的语音编码质量。一种已知的ABS方法即为码激励线性预测(CELP)。在CELP编码中,通过利用编码的激励信息激励线性预测编码(LPC)滤波器来合成语音。所述LPC滤波器的输出被与浊语音进行比较,并被用于在闭环意义下调整滤波器参数,直到找到基于最小误差的最佳参数。影响CELP编码的一个因素为,对于不同的浊语音片段,话音度(voicing degree)可以有显著地变化,从而导致语音编码中的不稳定的感知质量(perceptual quality)。本专利技术致力于解决上述综合分析浊语音问题。
技术实现思路
依照在此宽泛描述的本专利技术的目的,提供了利用话音指数(voicingindex)控制语音编码过程以提高合成语音质量的系统和方法。根据本专利技术的一个实施例,指示了语音信号的周期性程度(periodicitydegree)的话音指数用于控制和提高ABS型语音编码。对于不同的浊语音片段,所述周期性程度可以有显著变化,此变化可能会在诸如CELP的综合分析型语音编码中导致不稳定的感知质量。通过控制编码器和/或解码器,话音指数可被用于提高质量稳定性,例如,在以下领域(a)固定码本短期增强(fixed-codebook short-termenhancement),包括频谱倾斜(spectrum tilt),(b)感知加权滤波器,(c)子固定码本确定,(d)LPC插值,(e)固定码本音调增强,(f)后音调增强,(g)解码器中高频带的噪声注入,(h)LTP正弦窗(Sincwindow),(i)信号分解,等等。在CELP语音编码的一个实施例中,话音指数可以基于标准化的音调相关(pitch correlation)。下面将进一步参照附图和说明使得本专利技术的这些和其它方面变得更加明显。所有这些附加的系统、方法、特点和优点均包含在此描述中,在本专利技术的范围以内,并由所附权利要求保护。附图说明图1示出了样本语音信号的频域特征;图2示出了编码器和解码器均可使用的话音指数分类;图3示出了基本CELP编码框图;图4示出了依据本专利技术实施例的,利用附加的自适应加权滤波器进行语音增强的CELP编码过程;图5示出了依据本专利技术实施例的,利用后置滤波器结构的解码器实现;图6示出了利用多个子码本的CELP编码框图;图7A示出了用于产生正弦窗的采样;图7B示出了一种正弦窗。具体实施例方式本申请在此将对功能块组件和各种处理步骤进行描述。更可取的是,可以利用任何数量的被配置以执行特定功能的硬件组件和/或软件组件来实现这样的功能块。例如,本申请可以采用各种集成电路组件,例如,存储器元件、数字信号处理元件、发射机、接收机、检音器、音频发生器、逻辑元件等,其可在一个或多个微处理器或其它控制装置控制下实现多种功能。此外,可注意到,本申请可以采用任何数量的常规技术来进行数据传输、信号发送、信号处理和波形加工、音频生成和检测,等等。这些本领域技术人员所熟知的常用技术在此将不做详述。话音指数传统上是一种重要的指数,其被发送给解码器以进行谐波语音编码(Harmonic speech coding)。所述话音指数通常表示浊语音的周期性程度和/或周期谐波频带边界(periodic harmonic band boundary)。话音指数通常不用于CELP编码系统。然而,本专利技术的实施例使用话音指数来提供控制并提高在CELP或其它综合分析型编码器中的合成语音的质量。图1示出了样本语音信号的频域特征。此图中,宽带频域从略高于0Hz伸展到约7.0kHz。尽管对于以16kHz采样的语音信号而言,该频谱中的最高可能频率结束于8.0kHz(即,Nyquist(奈奎斯特)折叠频率),但是,此图示出了在7.0kHz到8.0kHz之间区域中能量几乎为零。对于本领域技术人员而言,很明显,在此使用的信号范围仅用于说明的目的,而在此表述的原理可应用于其它信号频带。如图1所示,语音信号在较低频率处非常调和,但是由于存在有噪声的(noisy)语音信号的可能性随着频率的增加而增加,在较高频率处的语音信号并不保持调和。例如,在此图中,语音信号表现出了在较高频率处变得有噪声的特征,例如,在5.0kHz以上。该有噪声的信号使得在较高频率的波形匹配非常困难。因此,如果需要高质量语音,类似ABS编码(例如,CELP)的技术将变得不可靠。例如,在CELP编码器中,通过最小化原始语音与合成语音之间的误差,将合成器设计为与原始语音信号相匹配。由于有噪声的信号不可预测,从而使得误差最小化非常困难。由于给出了以上问题,本专利技术实施例使用了话音指数,其被从编码器发送到解码器,以提高由诸如CELP编码器的ABS型语音编码器所合成的语音的质量。话音指数,其被编码器发送给解码器,可以表示浊语音的周期性或信号的谐波结构。在另一个实施例中,所述话音指数可用三个比特表示,以提供八类语音信号。例如,图2示出了编码器和解码器均可使用的话音指数分类。此图中,指数0(即,“000”)可指示背景噪声,指数1(即,“001”)可指示类似噪声(noise-like)或清音语音信号,指数2(即,“010”)可指示不规则的浊音信号,例如,开始时的浊音信号,以及指数3-7(即,“011”到“111”)各自可指示语音信号的周期性。例如,指数3(“011”)可表示最不具有周期性的信号,而指数7(“111”)表示最具有周期性的信号。话音指数信息可作为每一个编码帧的一部分由编码器传送。换言之,每一帧可包括话音指数比特(如,三个比特),其用于指示该具体帧的周期性程度。在一个实施例中,用于CELP的话音指数可基于标准化的音调相关参数,Rp,且可以由以下方程推出10 log(1-Rp)2,其中,-1.0<Rp<1.0。在一个例子中,话音指本文档来自技高网
...

【技术保护点】
一种提高合成语音质量的方法,其包括:    获取输入语音信号;    利用码激励线性预测编码器对所述输入语音进行编码,以生成用于所述输入语音的合成的编码参数;以及    在增强所述输入语音的所述合成时,使用表示所述输入语音的特征的话音指数。

【技术特征摘要】
【国外来华专利技术】US 2003-3-15 60/455,4351.一种提高合成语音质量的方法,其包括获取输入语音信号;利用码激励线性预测编码器对所述输入语音进行编码,以生成用于所述输入语音的合成的编码参数;以及在增强所述输入语音的所述合成时,使用表示所述输入语音的特征的话音指数。2.权利要求1的方法,其中,所述输入语音的所述特征是所述输入语音的周期性。3.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制自适应高通滤波器以在所述编码时增强高频区域。4.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制在所述码激励线性预测编码器中的自适应感知加权滤波器。5.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制在用于音调贡献的所述码激励线性预测编码器中使用的自适应正弦窗。6.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数通过所述码激励线性预测编码器的固定码本的短期增强来控制所述输入语音的频谱倾斜。7.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的感知加权滤波器。8.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的线性预测编码器。9.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的音调增强固定码本。10.权利要求1的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的后音调增强。11.权利要求1的方法,其中,所述话音指数基于所述输入语音信号的所述特征,从所述码激励线性编码器的多个子码本中选择至少一个子码本。12.一种提高合成语音质量的方法,包括获取输入语音信号的代码参数;从所述代码参数获取用于增强所述输入语音信号的合成的话音指数;以及利用由所述话音指数提供的信息,通过码激励线性预测编码器来处理所述代码参数,以生成所述输入语音信号的合成版本。13.权利要求12的方法,其中,所述话音指数提供所述输入语音信号的周期性。14.权利要求12的方法,其中,所述话音指数提供自适应高通滤波器的特征,该滤波器用于在生成所述输入语音的所述代码参数时,增强所述激励的高频区域。15.权利要求12的方法,其中,所述话音指数提供自适应感知加权滤波器的特征,该滤波器用于在生成所述输入语音的所述代码参数时,增强所述输入语音的感知质量。16.权利要求12的方法,其中,所述话音指数提供用于音调贡献的自适应正弦窗的特征,该正弦窗用于在生成所述输入语音的所述代码参数时,增强所述输入语音的感知质量。17.权利要求12的方法,其中,所述增强所述输入语音的合成在于,利用所述话音指数通过所述码激励线性预测编码器的固定码本的短期增强来控制所述输入语音的频谱倾斜。18.权利要求12的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的线性预测编码滤波器。19.权利要求12的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的音调增强固定码本。20.权利要求12的方法,其中,所述增强所述输入语音的所述合成在于,利用所述话音指数控制所述码激励线性预测编码器的后音调增强。21.权利要求12的方法,其中,所述话音指数...

【专利技术属性】
技术研发人员:高扬
申请(专利权)人:曼德斯必德技术公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1