一种混响消除方法及装置制造方法及图纸

技术编号:27195135 阅读:25 留言:0更新日期:2021-01-31 11:47
本申请涉及语音处理技术领域,公开了一种混响消除方法及装置,用以解决难以消除混响时间较长的语音信号的问题。该方法包括:生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行消除混响操作,得到去混响的声谱图;最后利用去混响的声谱图和相位谱图得到去混响的音频。通过对输入的语音特征图添加注意力,可以使得语音特征图上的语音特征以干净语音信息或者混响语音信息为主导,从而区分干净语音和混响语音。语音和混响语音。语音和混响语音。

【技术实现步骤摘要】
一种混响消除方法及装置


[0001]本专利技术涉及语音处理
,特别涉及一种混响消除方法及装置。

技术介绍

[0002]混响是日常生活中常见的一种声学现象,当声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次会被障碍物吸收一些声波,即便在声源停止发声后,声波在室内要经过多次反射和吸收后才会消失,使得在语音识别、录制视频、助听器等场景下,难以听清人声,影响产品性能,用户体验感差。
[0003]目前,可以使用信号处理和神经网络的方法消除含混响的音频。但上述两种消除混响的方法只能滤除混响时间较短的语音信号,难以有效地消除混响时间较长的语音信号,消除混响的效果较差。
[0004]有鉴于此,需要设计一种新的混响消除方法及装置,以克服上述缺陷。

技术实现思路

[0005]本申请实施例提供一种消除混响方法及装置,用以解决难以消除混响时间较长的语音信号的问题。
[0006]本申请实施例提供的具体技术方案如下:第一方面,本申请实施例提供了一种混响消除方法,包括:对音频进行时频转换处理得到声谱图和相位谱图,所述声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量,其中,一个上下文关联向量表征了一个语音特征与所述各个语音特征之间的相关性;根据所述各个语音特征以及对应的上下文关联向量,确定出所述声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对所述声谱图执行消除混响操作,得到去混响的声谱图,其中,一个语音掩蔽估计值表征了预测一个语音信号包含混响的概率;利用所述去混响的声谱图和所述相位谱图执行时频转换逆处理,得到去混响的音频。
[0007]可选的,对音频进行时频转换处理得到声谱图和相位图,包括:通过对所述音频执行加窗分帧操作,得到处于不同帧的初始语音信号;对各个初始语音信号进行傅里叶变换,得到对应的频谱图和相位谱图;按照时间顺序拼接各个频谱图,得到所述声谱图,以及按照时间顺序拼接各帧的相位谱图,得到相位谱图。
[0008]可选的,确定各个语音特征的上下文关联向量时,对于任意一个语音特征具体包括:计算所述任意一个语音特征对所述各个语音特征的注意力权重;基于所述各个语音特征以及对应的注意力权重,生成所述任意一个语音特征的上下文关联向量。
[0009]可选的,计算所述任意一个语音特征对所述各个语音特征的注意力权重,包括:将所述任意一个语音特征的查询向量与所述各个语音特征的键向量进行加权处理,得到所述各个语音特征的注意力权重。
[0010]可选的,利用所述去混响的声谱图和所述相位谱图执行时频转换逆处理,得到去混响的音频,包括:根据所述去混响的声谱图和所述相位谱图,得到去混响的傅里叶系数;利用所述去混响后的傅里叶系数,对所述去混响的声谱图执行逆傅里叶变换操作,得到所述去混响的音频。
[0011]第二方面,本申请实施例还提供了一种混响消除装置,包括:第一处理单元,被配置为对音频进行时频转换处理得到声谱图和相位谱图,所述声谱图上的每一帧对应一个语音信号组;第二处理单元,被配置为对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量,其中,一个上下文关联向量表征了一个语音特征与所述各个语音特征之间的相关性;根据所述各个语音特征以及对应的上下文关联向量,确定出所述声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对所述声谱图执行消除混响操作,得到去混响的声谱图,其中,一个语音掩蔽估计值表征了预测一个语音信号包含混响的概率;混响消除单元,被配置为利用所述去混响的声谱图和所述相位谱图执行时频转换逆处理,得到去混响的音频。
[0012]可选的,所述第一处理单元被配置为:通过对所述音频执行加窗分帧操作,得到处于不同帧的初始语音信号;对各个初始语音信号进行傅里叶变换,得到对应的频谱图和相位谱图;按照时间顺序拼接各个频谱图,得到所述声谱图,以及按照时间顺序拼接各帧的相位谱图,得到相位谱图。
[0013]可选的,所述第二处理单元被配置为:计算所述任意一个语音特征对所述各个语音特征的注意力权重;基于所述各个语音特征以及对应的注意力权重,生成所述任意一个语音特征的上下文关联向量。
[0014]可选的,所述第二处理单元被配置为:将所述任意一个语音特征的查询向量与所述各个语音特征的键向量进行加权处理,得到所述各个语音特征的注意力权重。
[0015]可选的,所述混响消除单元被配置为:根据所述去混响的声谱图和所述相位谱图,得到去混响的傅里叶系数;利用所述去混响后的傅里叶系数,对所述去混响的声谱图执行逆傅里叶变换操作,得到所述去混响的音频。
[0016]第三方面,本申请实施例还提供了一种计算设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一项混响消除方法。
[0017]第四方面,本申请实施例还提供了一种存储介质,包括计算机可读指令,当计算设备读取并执行所述计算机可读指令时,使得计算设备执行上述任一项混响消除方法。
[0018]本申请有益效果如下:本申请实施例中,生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行消除混响操作,得到去混响的声谱图;最后利用去混响的声谱图和相位谱图得到去混响的音频。上下文关联程度体现了一个语音特征与各个语音特征之间的相关性,通过对输入的语音特征图添加注意力,可以使得语音特征图上的语音特征以干净语音信息或者混响语音信息为主导,从而区分干净语音和混响语音,从而有效筛选并消除混响时间较长的语音信号。
附图说明
[0019]图1为本申请实施例提供的混响消除模型的架构示意图;图2为本申请实施例提供的消除混响的流程示意图;图3a为本申请实施例提供的时域图;图3b为本申请实施例提供的频谱图;图3c为本申请实施例提供的声谱图;图4a为本申请实施例提供的残差学习模块的结构示意图;图4b为本申请实施例提供的卷积模块的结构示意图;图4c为本申请实施例提供的注意力模块的结构示意图;图4d为本申请实施例提供的去卷积模块的结构示意图;图5为本申请实施例提供的去混响的音频的声谱图;图6为本申请实施例提供的一种消除混响的装置的结构示意图;图7为本申请实施例提供的一种计算设备的装置的结构示意图。
具体实施方式
[0020]为了解决难以消除混响时间较长的语音信号的问题,本申请实施例中,提出了一种新的技术方案。该方案包括:生成音频对应的声谱图和相位谱图,声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量;再基于各个语音特征以及对应的上下文关联向量,确定出声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对声谱图执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混响消除方法,其特征在于,包括:对音频进行时频转换处理得到声谱图和相位谱图,所述声谱图上的每一帧对应一个语音信号组;对各帧进行特征提取得到对应的语音特征,并确定各个语音特征的上下文关联向量,其中,一个上下文关联向量表征了一个语音特征与所述各个语音特征之间的相关性;根据所述各个语音特征以及对应的上下文关联向量,确定出所述声谱图上各个语音信号的语音掩蔽估计值,并根据各个语音掩蔽估计值对所述声谱图执行消除混响操作,得到去混响的声谱图,其中,一个语音掩蔽估计值表征了预测一个语音信号包含混响的概率;利用所述去混响的声谱图和所述相位谱图执行时频转换逆处理,得到去混响的音频。2.如权利要求1所述的方法,其特征在于,对音频进行时频转换处理得到声谱图和相位图,包括:通过对所述音频执行加窗分帧操作,得到处于不同帧的初始语音信号;对各个初始语音信号进行傅里叶变换,得到对应的频谱图和相位谱图;按照时间顺序拼接各个频谱图,得到所述声谱图,以及按照时间顺序拼接各帧的相位谱图,得到相位谱图。3.如权利要求1所述的方法,其特征在于,确定各个语音特征的上下文关联向量时,对于任意一个语音特征具体包括:计算所述任意一个语音特征对所述各个语音特征的注意力权重;基于所述各个语音特征以及对应的注意力权重,生成所述任意一个语音特征的上下文关联向量。4.如权利要求3所述的方法,其特征在于,计算所述任意一个语音特征对所述各个语音特征的注意力权重,包括:将所述任意一个语音特征的查询向量与所述各个语音特征的键向量进行加权处理,得到所述各个语音特征的注意力权重。5.如权利要求1所述的方法,其特征在于,利用所述去混响的声谱图和所述相位谱图执行时频转换逆处理,得到去混响的音频,包括:根据所述去混响的声谱图和所述相位谱图,得到去混响的傅里叶系数;利用所述去混响后的傅里叶系数,对所述去混响的声谱图执行逆傅里叶变换操作,得到所述去混响的音频。6.一种混响消除装置,其特征在于,包括:第一处理单元,被配置为对音频进行时频转换处理得到声谱图和相位谱图,所述声谱图上的...

【专利技术属性】
技术研发人员:邓峰姜涛王晓瑞李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1