当前位置: 首页 > 专利查询>之江实验室专利>正文

语音信号单通道去混响方法及装置、终端、可读存储介质制造方法及图纸

技术编号:36759028 阅读:24 留言:0更新日期:2023-03-04 10:52
本发明专利技术公开了语音信号单通道去混响方法及装置、终端、可读存储介质,该方法包括:获取单通道时域信号并进行分帧、加窗、傅里叶变换,得到单通道频域信号;利用前D帧单通道频域信号,计算晚期混响权重系数;根据单通道频域信号和对应的晚期混响权重系数,估计后验信噪比和先验信噪比;利用上一帧增强后语音信号和上一帧频域信号,计算当前帧语音存在概率;利用上一帧增益控制参数和当前帧语音存在概率,计算增益控制参数;根据先验信噪比、后验信噪比,计算得到增益函数;利用增益控制参数、增益函数和单通道频域信号,估计增强后的语音频域信号;将增强后的语音频域信号与设定门限比较并根据比较结果进行更新,做逆傅里叶变换转换到时域并输出。时域并输出。时域并输出。

【技术实现步骤摘要】
语音信号单通道去混响方法及装置、终端、可读存储介质


[0001]本专利技术属于语音信号处理
,尤其涉及语音信号单通道去混响方法及装置、终端、可读存储介质。

技术介绍

[0002]在涉及到声学设备的应用场景中,不可避免的会有语音混响发生,混响不仅会降低语音识别的准确率,在视频会议、语音通话和海洋声学中,混响也会带来种种负面影响。当混响十分严重时,各种声学设备甚至无法正常发挥功能。因此,如何消除混响对相关应用场景都是一个十分重要的问题。在《一种单通道语音去混响装置》(公布号:CN 201220287686.3)中,该方案利用指数衰减模型估计晚期混响功率谱,然后结合谱减法消除晚期混响。该方案的缺点是直接利用指数衰减模型直接去模拟RIR(Room Impulse Response)来估计晚期混响,这种模拟方式太过粗糙简单,估计出的晚期混响不大准确,而且直接使用谱减法去消除混响,肯定会带来语音失真和引入音乐噪声。在《一种语音数据的去混响方法及装置》(公布号: CN 201510401640.8)中,该方案利用指数衰减模型估计晚期互相功率谱,然后结合带系数的谱减法消除晚期混响,还通过调整谱减系数控制混响消除程度。该方案的缺点是也直接利用指数衰减模型直接去模拟RIR(Room Impulse Response)来估计晚期混响,这种模拟方式太过粗糙简单,估计出的晚期混响不大准确,并且虽然增加了带系数的谱减法,但该参数只能手动调整,在实际使用时依旧会存在混响消除不足或混响消除太多的问题。
[0003]综上所述,目前尚缺乏一种能够准确估计晚期混响并且能够较好的消除混响的方法。

技术实现思路

[0004]本申请实施例的目的是提供语音信号单通道去混响方法及装置、终端、可读存储介质,以解决相关技术中存在的无法准确估计出晚期混响的并且较好的消除混响的技术问题,本申请通过利用帧间语音信号在频域上的相关性估计晚期混响功率谱,充分利用了信号在频谱上的幅度和相位等信息计算增益控制参数来消除混响,对单通道语音信号进行混响抑制。。
[0005]根据本申请实施例的第一方面,提供一种语音信号单通道去混响方法,包括:获取输入的单通道时域信号,对所述时域信号进行分帧、加窗、傅里叶变换,得到单通道频域信号;利用前D帧的所述单通道频域信号,计算第i帧的晚期混响权重系数;根据所述单通道频域信号和对应的晚期混响权重系数,估计当前帧的后验信噪比和先验信噪比;利用上一帧增强后的语音信号和上一帧的频域信号,计算当前帧的语音存在概率;
利用上一帧的增益控制参数和当前帧的语音存在概率,计算当前帧的增益控制参数;基于幅度MMSE准则,根据当前帧的先验信噪比、后验信噪比,计算得到增益函数;利用所述增益控制参数、增益函数和所述单通道频域信号,估计增强后的语音频域信号;将所述增强后的语音频域信号与设定门限比较并根据比较结果进行更新;对更新后的语音频域信号做逆傅里叶变换从而转换到时域并输出。
[0006]进一步地,利用前D帧的所述单通道频域信号,计算第i帧的晚期混响权重系数,包括:利用前D帧的所述单通道频域信号,计算第i帧每个频点的晚期混响相关系数:其中,表示第i帧第k个频点的晚期混响相关系数,L为放缩系数,为第l帧的单通道频域信号,*表示取共轭,表示取模, K为一帧频域信号中的频点数;利用过去N帧的晚期混响相关系数,计算第i帧每个频点的晚期混响权重系数:其中为第i帧第k个频点的晚期混响权重系数。
[0007]进一步地,根据所述单通道频域信号和对应的晚期混响权重系数,估计后验信噪比和先验信噪比,包括:根据过去N帧的所述晚期混响权重系数,估计第i帧晚期混响功率;将第i帧的单通道频域功率除以第i帧的所述晚期混响功率,得到第i帧的后验信噪比;将所述后验信噪比与后验信噪比下限进行对比,得到第i帧的先验信噪比。
[0008]进一步地,利用上一帧增强后的语音信号和上一帧的频域信号,计算当前帧的语音存在概率,为:将第i

1帧的每个频点的增强后的语音信号功率之和除以同一帧每个频点的频域信号功率之和,计算当前帧的语音存在概率。
[0009]进一步地,利用上一帧的增益控制参数和当前帧的语音存在概率,计算当前帧的增益控制参数,其中第i帧的增益控制系数计算公式如下:其中,表示平滑系数, 和表示的最大值和最小值,为第i帧的语音存在概率。
[0010]进一步地,利用所述增益控制参数、增益函数和所述单通道频域信号,估计增强后的语音频域信号,为:将第i帧的增益控制参数、增益函数和单通道频域信号相乘,得到增强后的语音频域信号。
[0011]进一步地,将所述增强后的语音频域信号与设定门限比较并根据比较结果进行更新,包括:将第i帧增强后的语音频域信号与设定门限比较;若所述第i帧增强后的语音频域信号大于所述设定门限,则将所述第i帧增强后的语音频域信号作为更新后的第i帧语音频域信号;若所述第i帧增强后的语音频域信号小于等于所述设定门限,则将第i帧的单通道频域信号乘以预定值,作为更新后的第i帧语音频域信号。
[0012]根据本申请实施例的第二方面,提供一种语音信号单通道去混响装置,包括:获取模块,语音获取输入的单通道时域信号,对所述时域信号进行分帧、加窗、傅里叶变换,得到单通道频域信号;第一计算模块,语音利用前D帧的所述单通道频域信号,计算第i帧的晚期混响权重系数;第一估计模块,语音根据所述单通道频域信号和对应的晚期混响权重系数,估计当前帧的后验信噪比和先验信噪比;第二计算模块,语音利用上一帧增强后的语音信号和上一帧的频域信号,计算当前帧的语音存在概率;第三计算模块,语音利用上一帧的增益控制参数和当前帧的语音存在概率,计算当前帧的增益控制参数;第四计算模块,语音基于幅度MMSE准则,根据当前帧的先验信噪比、后验信噪比,计算得到增益函数;第二估计模块,用于利用所述增益控制参数、增益函数和所述单通道频域信号,估计增强后的语音频域信号;更新模块,用于将所述增强后的语音频域信号与设定门限比较并根据比较结果进行更新;转换模块,用于对更新后的语音频域信号做逆傅里叶变换从而转换到时域并输出。
[0013]根据本申请实施例的第三方面,提供一种终端,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
[0014]根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
[0015]本申请的实施例提供的技术方案可以包括以下有益效果:由上述实施例可知,本申请利用帧间语音信号在频域上的相关性估计晚期混响功率谱,充分利用了信号在频谱上的幅度和相位的信息;结合基于晚期混响的后验信噪比,先验信噪比和幅度MMSE估计器计算增益函数;利用语音存在概率计算增益控制参数。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音信号单通道去混响方法,其特征在于,包括:获取输入的单通道时域信号,对所述时域信号进行分帧、加窗、傅里叶变换,得到单通道频域信号;利用前D帧的所述单通道频域信号,计算第i帧的晚期混响权重系数;根据所述单通道频域信号和对应的晚期混响权重系数,估计当前帧的后验信噪比和先验信噪比;利用上一帧增强后的语音信号和上一帧的频域信号,计算当前帧的语音存在概率;利用上一帧的增益控制参数和当前帧的语音存在概率,计算当前帧的增益控制参数;基于幅度MMSE准则,根据当前帧的先验信噪比、后验信噪比,计算得到增益函数;利用所述增益控制参数、增益函数和所述单通道频域信号,估计增强后的语音频域信号;将所述增强后的语音频域信号与设定门限比较并根据比较结果进行更新;对更新后的语音频域信号做逆傅里叶变换从而转换到时域并输出。2.根据权利要求1所述的方法,其特征在于,利用前D帧的所述单通道频域信号,计算第i帧的晚期混响权重系数,包括:利用前D帧的所述单通道频域信号,计算第i帧每个频点的晚期混响相关系数:其中,表示第i帧第k个频点的晚期混响相关系数,L为放缩系数,为第l帧的单通道频域信号,*表示取共轭,表示取模, K为一帧频域信号中的频点数;利用过去N帧的晚期混响相关系数,计算第i帧每个频点的晚期混响权重系数:其中为第i帧第k个频点的晚期混响权重系数。3.根据权利要求1所述的方法,其特征在于,根据所述单通道频域信号和对应的晚期混响权重系数,估计后验信噪比和先验信噪比,包括:根据过去N帧的所述晚期混响权重系数,估计第i帧晚期混响功率;将第i帧的单通道频域功率除以第i帧的所述晚期混响功率,得到第i帧的后验信噪比;将所述后验信噪比与后验信噪比下限进行对比,得到第i帧的先验信噪比。4.根据权利要求1所述的方法,其特征在于,利用上一帧增强后的语音信号和上一帧的频域信号,计算当前帧的语音存在概率,为:将第i

1帧的每个频点的增强后的语音信号功率之和除以同一帧每个频点的频域信号功率之和,计算当前帧的语音存在概率。5.根据权利要求1所述的方法,其特征在于,利用上一帧的增益控制参数和当前帧的语音存在概率,计算当前帧的增益控制参数,其中第i帧的增益控制系数计算公式如下:
其中,表示...

【专利技术属性】
技术研发人员:白炳潮宛敏红宋伟朱世强
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1