当前位置: 首页 > 专利查询>索尼公司专利>正文

语音编码方法和装置以及语音解码方法和装置制造方法及图纸

技术编号:3047751 阅读:147 留言:0更新日期:2012-04-11 18:40
一种语音编码方法和装置,其中输入的语音信号按照作为编码单位的数据块或帧划分并按照编码单位进行编码,其中爆破音和摩擦音可以逼真地重现,同时在发浊音的(V)和发清辅音的(UV)部分之间的过渡部分没有产生外来音的危险,这样可以产生没有堵塞感觉的高清晰度的声音。编码装置包括:第一编码单元110,和第二编码单元120,第一编码单元110和第二编码单元120分别用于对输入信号的发声(V)部分和不发声(UV)部分进行编码。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种语音编码方法,该方法将输入的语音信号划分为作为编码单位的数据块或帧并按照编码单位进行解码,本专利技术还涉及一种解码方法,对经编码的信号进行解码,以及涉及一种语音编码/解码方法。迄今为止已有各种用于对声音信号(包括语音和音响信号)进行编码的编码方法,按照时域和频域以及人耳的心理声学特性,通过利用信号的统计特性进行信号压缩。编码方法可以粗分为时域编码、频域编码和分析/合成编码。高效的语音信号编码的实例包括正弦分析编码,例如谐波编码或多频带激励(MBE)编码、副频带编码(SBC)、线性预测编码(LPC)、离散余弦变换(DCT)、改进的DCT(MDCT)和快速傅里叶变换(FFT)。按照常规的MBE编码或谐波编码,利用噪声发生电路产生不发清辅音的语音部分。然而,这种方法存在的缺点是不能逼真地产生爆破(辅)音例如P、K或t,或者各摩擦(辅)音。此外,如果将具有完全不同特性的编码参数例如线性频谱对,内插在发声(V)部分和不发声(UV)部分之间的过渡部分处,往往会产生无关的外部声音。此外,利用常规的正弦合成编码,低音调的语音,首先是男人的声音会变成失真的“被堵塞的”语音。因此,本专利技术的一个目的是提供一种语音编码方法和装置以及语音解码方法和装置,因此能逼真地重现爆破音和摩擦音,不会在发声语声和不发声语声之间的过渡部分处产生奇异声音,从而,可以重现具有高清晰度而无“堵塞”感的语声。根据本专利技术的语音编码方法,其中输入语音信号被沿时间轴划分成预定的编码单位并按照预定的编码单位顺序地进行编码,求出该输入语声信号的短期预测余部,将如此求出的短期预测余部利用正弦分解编码进行编码,使输入语音信号利用波形编码方法编码。对输入语音信号进行鉴别,以便确认是发声部分还是不发声部分。根据鉴别的结果,对于判别为发声输入语音信号部分利用正弦分解编码进行编码,而对于判别为不发声部分利用分析与合成方法通过沿时间轴的波形的矢量量化进行处理。对于正弦分析编码,最好利用按听觉加权的矢量或矩阵量化来对短期预测的余部进行量化,并且对于这种按听觉加权的矢量或矩阵量化,根据由加权传递函数的脉冲响应派生的参数的正交变换的结果来计算加权。根据本专利技术,求出输入语音信号的短期预测的余部,例如LPC余部,并且利用合成的正弦波重现该短期预测的余部部分,同时,利用输入语音信号的相位传输的波形编码对输入语音信号进行编码,因此实现高效编码。此外,对输入语音信号进入鉴别,以便确认是发声还是不发声部分,根据鉴别的结果,对判别为发声输入语音信号部分利用正弦分析编码进行编码,同时对于判别为不发声输入语音信号部分利用分析与合成方法,通过对最佳矢量的闭环查找,借助对沿时间轴的波形的矢量量化进行处理,因此,改进了不发声部分的表达能力,产生具有高清晰度的重现的语声。特别是,通过提升速率使这种效果增强。还能够防止在发声和不发声部分之间的过渡部分处产生额外的声音,在发声部分处不准确的合成语音被减少了,从而产生更自然的合成语声。根据由加权传递函数的脉冲响应派生的参数的正交变换的结果,通过计算在被变换为频阈信号的输入信号的参数的加权的矢量量化时的(加)权重,可以将处理的数量降低到一零头值,因此,简化了结构或加速了处理操作。附图说明图1是表示用于实施本专利技术的编码方法的语音信号编码装置(编码器)的基本结构的方块图。图2是表示用于实施本专利技术的解码方法的语音信号解码装置(解码器)的基本结构的方块图。图3是表示图1所示的语音信号编码器的更具体的结构的方块图。图4是表示图2所示的语音信号解码器的更详细的结构的方块图。图5是表示LPC量化器基本结构的方块图。图6是表示LPC量化器的更详细结构的方块图。图7是表示矢量量化器的基本结构的方块图。图8是表示矢量量化器的更详细的结构的方块图。图9是用于描述计算矢量量化所用的加权权重的操作顺序的一个特定实例的流程图。图10是表示本专利技术的语音信号编码器的CELP编码部分(第二编码部分)的具体结构的方块电路图。图11是描述图10所示装置中的处理流程的流程图。图12表示高斯噪声和在不同阈值处进行限限之后的噪声的状态。图13是表示在通过学习产生波形(shope)代码本时的处理流程的流程图。图14描述通过10阶LPC分析得到α参数派生的10阶线性频谱对。图15描述从UV帧到V帧的增益变化方式。图16描述频谱的内插的方式和逐帧合成的波形。图17描述在发声(V)部分和不发声(UV)部分之间的结合部处重叠的方式。图18描述在合成发浊音的声音(部分)时的噪声添加操作。图19描述在合成发浊音的声音(部分)时添加的噪声的幅值计算的实例。图20描述一个后置滤波器构成的实例。图21描述增益刷新周期和后置滤波器的滤波器系数刷新周期。图22描述在后置滤波器的增益和滤波器系数的帧边界的结合部的处理过程。图23是表示采用本专利技术的语音信号编码器的便携式终端的发送侧结构的方块图。图24是表示采用本专利技术的语音信号解码器的便携式终端的接收侧结构的方块图。下面,参照附图将详细解释本专利技术的各优选实施例。图1表示用于实施本专利技术的语音编码方法的编码装置(编码器)的基本结构。构成图1所示的语音信号编码器的基本概念在于,该编码器具有第一编码单元110和第二编码单元120,第一编码单元110用于求出输入语音信号的短期预测的余部,例如线性预测编码(LPC)的余部,以便进行正弦分析,第二编码单元120用于利用具有相位再现能力的波形编码对输入语音信号进行编码;还在于第一编码单元110和第二编码单元120分别用于对输入信号的发声(V)语音进行编码和对于输入信号的不发声(UV)部分进行编码。第一编码单元110采用正弦分析编码,例如谐波编码或多频带激励(MBE)编码例如对LPC的余部进行编码的结构。第二编码单元120通过进行闭环查找以及还例如利用合成法分析,通过闭环查找最佳矢量利用矢量量化,采用实施代码激励的线性预测(CELP)的结构。在图1所示的实施例中,传送到输入端101的语音信号被送到LPC反变换滤波器111和LPC分析和第一编码单元110的量化单元113。利用LPC分析量化单元113得到的LPC系数或所谓的α参数送到第一编码单元110的反变换滤波器111。从LPC反变换滤波器111取得输入语音信号的线预测余部(LPC余部)。由LPC分析量化单元113取得各线性频谱对的量化输出(LSPs)并传送到输出端102(下文将解释)。来自LPC反变换滤波器111的LPC的余部传送到正弦分析编码单元114。正弦分析编码单元114进行音调检测和计算频谱包络线的幅值,并且利用V/UV鉴别单元115进行V/UV鉴别。来自正弦分析编码单元114的频谱包络线幅值的数据送到矢量量化单元116。来自矢量量化单元116的代码本索引作为频谱包络线的矢量量化的输出经过开关117送到输出端103,而正弦分析编码单元114的输出经过开关118送到输出端104。V/UV鉴别单元115的V/UV鉴别输出送到输出端115,并作为一个控制信号送到开关117、118。假如输入语音信号是发声(V)部分,则分别在输出端103、104选择该索引和音调并取出。在本实施例中,图1所示的第二编码单元120具有一种代码激励的线性预测编码(CELP编码)结构,并采用合本文档来自技高网...

【技术保护点】
一种语音编码方法,其特征在于将输入的语音信号按照预定的编码单位沿时间轴进行分析并按照预定的编码单位进行编码,包含的步骤有:求出输入的语音信号的短时预测的余部;通过正弦分析编码对上述求出的短时预测的余部进行编码;以及通过波形编码对 输入的语音信号进行编码。

【技术特征摘要】
JP 1995-10-26 302129/951一种语音编码方法,其特征在于将输入的语音信号按照预定的编码单位沿时间轴进行分析并按照预定的编码单位进行编码,包含的步骤有求出输入的语音信号的短时预测的余部;通过正弦分析编码对上述求出的短时预测的余部进行编码;以及通过波形编码对输入的语音信号进行编码。2如权利要求1所述的语音编码方法,其特征在于利用谐波编码作为正弦分析编码。3如权利要求1所述的语音编码方法,其特征在于检测输入的语音信号中呈现的发声/发清辅音的语音状态,以便将输入的语音信号分为第一模式和第二模式,并且其中通过正弦分析编码对判别为第一模式的输入的语音信号部分进行编码,同时利用合成法分析对于最佳矢量进行闭环查找,对判别为第二模式的输入的语音信号其他部分通过对时域波形的矢量量化进行处理。4如权利要求1所述的语音编码方法,其特征在于将按听觉加权的矢量量化或矩阵量化用于该短期预测的余部的正弦分析编码参数的量化。5如权利要求4所述的语音编码方法,其特征在于根据由加权传递函数的冲击响应产生的参数的正交变换的结果,在进行所述的按听觉加权的矢量量化或矢量量化时计算各权重。6一种语音编码装置,其特征在于按照预定的编码单元对输入的语音信号沿时间轴进行划分并按照预定的编码单位进行编码;该装置包括用于求出输入的语音信号的短期预测的余部的装置;用于通过正弦分析编码对上述求出的短期预测的余部进行编码的装置;用于通过波形编码对输入的语音信号进行编码的装置。7如权利要求6所述的语音编码装置,其特征在于将谐波编码用作正弦分析编码。8如权利要求6所述的语音编码装置,其特征在于还包含用于鉴别输入的语音信号是发声语音部分还是不发声语音部分的装置;其中,像所述波形编码装置一样,代码激励的线性预测编码装置利用通过利用合成法分析通过闭环查找最佳矢量进行矢量量化,以及其中,在判别为发声输入语音信号部分和判别为不发声部分中,根据由所述鉴别装置产生的鉴别结果,将由所述正弦分析编码装置的编码输出,以及由所述代码激励的线性预测编码装置产生的编码输出分别取出。9如权利要求6所述的语音编码装置,其特征在于所述的正弦分析编码装置利用按听觉加权的矢量或矩阵量化,以便对所述短期分析的编码参数的正弦分析编码参数进行量化。10如权利要求6所述的语音编码装置,其特征在于所述的正弦分析编码装置根据由加权传递函数的冲击响应产生的参数的正交变换结果,在进行所述按听觉加权的矩阵或矢量量化时计算各权重。11一种语音解码方法,用于对经编码的语音信号进行解码,该经编码的语音信号是通过对利用正弦分析编码通过求出短期预测的余部对输入的语音信号的发声部分进行编码,以及通过采用短期预测的余部按照另一种编码对输入的语音信号的不发声部分进行编码得到的,该方法包括对于利用正弦合成编码的语音信号的发声语音部分来求出短期预测的余部的步骤,用以求出短期预测的余部;对于经编码的语音信号的不发声语音部分求出短期预测的余部的步骤;以及预测合成滤波,用于根据上述求出的发声和不发声语音部分的短期预测的余部,对沿时间轴的波形进行合成。12如权利要求11所述的语音解码方法,其特征在于所述的预测合成滤波步骤包括根据上述求出的发声语音部分的短期预测的余部,对发声部分的合成的沿时间轴的波形进行第一预测滤波的子步骤,以及根据上述求出的不发声语声部分的短期预测的余部,对不发声部分的沿时间轴的波形进行合成的第二预测滤波的子步骤。13如权利要求11所述的语音解码方法,还包含对说述第一预测合成滤波器的输出进入后置滤波的第一后置滤波步骤,以及对所述第二预测合成滤波器的输出进行后置滤波的第二后置滤波步骤。14如权利要求11所述的语音解码方法,其特征在于将按听觉加权的矢量或矩阵量化用对所述短期预测的余部的正弦合成参数进行量化。15一种语音解码装置,用于对经编码的语音信号进行解码,该经编码的语音信号是通过利用正弦合成编码求出短期预测的余部对输入的语音信号的发声部分进行编码,以及通过采用短期预测的余部的另一种编码对输入的语音信号的不发声部分进行编码得到的,该装置包含用于利用正弦分析编码对输入的语音信号的发声部分求出短期预测的余部的装置;一个装置,用于对所述编码的语音信号的不发声部分求出短期预测的余部,以及预测合成滤波装置,用于根据上述求出的发声和发清辅音的语音部分的所述短期预测的余部,合成沿...

【专利技术属性】
技术研发人员:西口正之饭岛和幸松本淳大森士郎
申请(专利权)人:索尼公司
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1