一种混响消除方法、装置、设备及存储介质制造方法及图纸

技术编号:22566734 阅读:60 留言:0更新日期:2019-11-16 12:45
本发明专利技术实施例公开了一种混响消除方法、装置、设备及存储介质,该方法包括:获取语音信号;基于所述语音信号进行时频分解得到听觉谱;基于所述听觉谱提取第一MRCG特征;将所述第一MRCG特征输入预先训练好的混响消除模型得到第二MRCG特征;基于所述第二MRCG特征通过语音变换得到消除混响后的语音信号。本发明专利技术实施例提供的方法对于各种混响程度的语音皆可达到良好的去混响效果。

A reverberation elimination method, device, equipment and storage medium

The embodiment of the invention discloses a reverberation elimination method, device, device and storage medium, the method includes: acquiring voice signal; time-frequency decomposition based on the voice signal to obtain auditory spectrum; extracting the first mrcg feature based on the auditory spectrum; inputting the first mrcg feature into the pre trained reverberation elimination model to obtain the second mrcg feature; and based on the second mrcg feature The speech signal after eliminating reverberation is obtained by speech transformation. The method provided by the embodiment of the invention can achieve good de reverberation effect for voice with various reverberation degrees.

【技术实现步骤摘要】
一种混响消除方法、装置、设备及存储介质
本专利技术属于信号处理
,尤其涉及一种语音混响消除方法、装置、设备及存储介质。
技术介绍
声音混响是日常生活中较为普遍的一种现象,适量的早期混响可以使声音饱满,但混响时间过长会产生严重的负面影响,且通常会对语音的清晰度有一定的影响,尤其是对有听力障碍的听众。当说话人与麦克风距离较远时,麦克风采集到的语音通常含有较多的混响成分,过大的混响不仅会影响到语音的清晰度和可懂度,同时也影响到后续语音识别等语音信号处理的性能。因此对具有混响的音频进行混响的消除具有重要的意义。传统的混响消除方法包括基于波束形成的混响消除、基于逆滤波的混响消除以及基于语音增强的混响消除方法,基于波束形成的混响消除又分为固定波束形成和自适应波束形成两种方法,基于固定波束形成的混响消除方法易实现,但不能应用于变化的声学环境,基于自适应波束形成的混响消除方法只能抑制波束方向的混响,计算复杂度高;基于逆滤波的混响消除难以应用于实际。峰值检测法不能用于复杂的混响模型中。
技术实现思路
本专利技术实施例提供一种混响消除方法、装置、设备及存储介质,环境适应度强能够适应各种复杂的混响模型实现混响消除。第一方面,本专利技术实施例提供了一种混响消除方法,包括:获取语音信号;基于所述语音信号进行时频分解得到听觉谱;基于所述听觉谱提取第一MRCG特征;将所述第一MRCG特征输入预先训练好的混响消除模型得到第二MRCG特征;基于所述第二MRCG特征通过语音变换得到消除混响后的语音信号。第二方面,本专利技术实施例还提供了一种混响消除系统,包括:语音信号获取模块,用于获取语音信号;时频分解模块,用于基于所述语音信号进行时频分解得到听觉谱;第一MRCG特征提取模块,用于基于所述听觉谱提取第一MRCG特征;第二MRCG特征获取模块,用于将所述第一MRCG特征输入预先训练好的混响消除模型得到第二MRCG特征;语音变换模块,用于基于所述第二MRCG特征通过语音变换得到消除混响后的语音信号。第三方面,本专利技术实施例还提供了一种混响消除设备,包括存储器和处理器,存储器上存储有可在处理器运行的计算机程序,处理器执行计算机程序时实现前述的混响消除方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被执行时实现前述的混响消除方法。本专利技术实施例提供的技术方案,通过预设规则将ETL任务归类为第一类型任务和第二类型任务,进而选择不同的计算资源执行对应类型的ETL任务,避免了传统ETL任务通过统一的计算资源执行所造成的资源浪费以及并发排队过多造成的时间浪费。附图说明图1是本专利技术实施例一中的混响消除方法的流程图;图2是本专利技术实施例一中的混响消除方法的子流程图;图3是本专利技术实施例一中的混响消除方法的子流程图;图4是本专利技术实施例二中的混响消除方法的流程图;图5是本专利技术实施例二中的混响消除模型的训练流程图;图6是本专利技术实施例二中的混响消除装置的结构示意图;图7是本专利技术实施例三中的混响消除设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本专利技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本专利技术的范围的情况下,可以将第一预设时间称为第二预设时间,且类似地,可将第二预设时间称为第一预设时间。第一预设时间和第二预设时间两者都是预设时间,但其不是同一预设时间。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。需要说明的是,当部被称为“固定于”另一个部,它可以直接在另一个部上也可以存在居中的部。当一个部被认为是“连接”到另一个部,它可以是直接连接到另一个部或者可能同时存在居中部。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述,只是为了说明的目的,并不表示是唯一的实施方式。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种混响消除方法的流程图,本实施例可适用于多种复杂混响模型的混响消除需求,具体包括如下步骤:步骤110、获取语音信号。此处获取的语音信号为需要进行混响消除的语音信号。步骤120、基于所述语音信号进行时频分解得到听觉谱。时频分解通常作为前端处理手段,其可以将以为时域信号分解成二维的视频信号。进一步的,听觉谱获取流程如图2所示,步骤120包括步骤121~123:步骤121、选择听觉滤波器对所述语音信号进行滤波,得到滤波输出。在语音的压缩和识别技术中,听觉滤波器有广泛的应用。降低采样率等技术难以获得满意的音质,而听觉滤波器的语音压缩技术考虑了人耳对声音的感受特性,对不同频带的语音信号采用不同的压缩率,让原始语音信号通过一组听觉滤波器,哪些人耳敏感的频带的滤波器通道的输出采用较低的压缩率,这些通道的信息尽可能多的保留在压缩后的语音中,而那些原始语音信号中不容易被人耳察觉的频带的滤波器通道的输出则采用较高的压缩率,甚至被丢弃掉。这样得到的滤波输出由于较好地模拟了人耳的感知特性,使得语音识别技术在较强的噪声背景下也可以取得较佳的效果。进一步的,本实施例采用Gammatone听觉滤波器对语音信号进行处理,其时域脉冲响应为:其中,l为Gammatone听觉滤波器的阶数,b为滤波器的衰减因子,f为滤波器的中心频率。相较于其他听觉滤波器,Gammatone本文档来自技高网
...

【技术保护点】
1.一种混响消除方法,其特征在于,包括:/n获取语音信号;/n基于所述语音信号进行时频分解得到听觉谱;/n基于所述听觉谱提取第一MRCG特征;/n将所述第一MRCG特征输入预先训练好的混响消除模型得到第二MRCG特征;/n基于所述第二MRCG特征通过语音变换得到消除混响后的语音信号。/n

【技术特征摘要】
1.一种混响消除方法,其特征在于,包括:
获取语音信号;
基于所述语音信号进行时频分解得到听觉谱;
基于所述听觉谱提取第一MRCG特征;
将所述第一MRCG特征输入预先训练好的混响消除模型得到第二MRCG特征;
基于所述第二MRCG特征通过语音变换得到消除混响后的语音信号。


2.根据权利要求1所述的混响消除方法,其特征在于,所述基于所述语音信号进行时频分解得到听觉谱,包括:
选择听觉滤波器对所述语音信号进行滤波,得到滤波输出;
采用交叠分段的方法,以第一预设时间为帧长,第二预设时间为偏移量对每一个频率通道的所述滤波输出做分帧加窗,得到输入信号的时频域表示,即时频单元;
根据所述时频单元计算听觉滤波器输出能量,得到听觉谱。


3.根据权利要求2所述的混响消除方法,其特征在于,所述听觉滤波器为Gammatone听觉滤波器,其时域脉冲响应为:



其中,l为滤波器的阶数,b为滤波器的衰减因子,f为滤波器的中心频率。


4.根据权利要求2所述的混响消除方法,其特征在于,所述基于所述听觉谱提取第一MRCG特征包括:
对输入的语音信号,计算64通道的听觉谱CG1,对每一个时频单元取对数操作;
以第三预设时间为帧长,以第二预设时间为帧移计算得到听觉谱CG2;
用一个长为11时间帧和宽为11频带的方形窗对所述听觉谱CG1进行平滑,得到听觉谱CG3;
使用23×23的方形窗对所述听觉谱CG1进行平滑,得到听觉谱CG4;
串联听觉谱CG1、CG2、CG3和CG4得到一个64×4的向量,即为第一MRCG特征。


5.根据权利要求1-4所述的混响消除方法,其特征在于,所述预先训练好的混响消除模型为一个深度置信网络模型,包括2个RBM网络和1个BP网络。


6.根据权利要求5所述的混响消除方法,其特征在于,所述预先训练好的混响消除模型的训练过程包括:
A、获取包括多个混响语音信号和纯净语音信号的音频数据;
B、基于所述多个混响语音信号和纯净语音信号进行时频分解得到多个混响听...

【专利技术属性】
技术研发人员:雒航通
申请(专利权)人:深圳乐信软件技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1