一种音频处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:26175265 阅读:19 留言:0更新日期:2020-10-31 14:07
本申请提供了一种音频处理方法、装置、电子设备和可读存储介质,该音频处理方法包括:获取第一语音信号和第二语音信号,其中,所述第一语音信号中包含目标语音信号和噪声信号,所述第二语音信号中包含所述噪声信号;利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计;基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱,通过上述方法可以得到相对纯净的目标语音信号的时频谱,从而在对目标语音信号的时频谱进行识别时,有利于提高目标语音的识别率。

An audio processing method, device, electronic device and readable storage medium

【技术实现步骤摘要】
一种音频处理方法、装置、电子设备和可读存储介质
本申请涉及计算机
,具体而言,涉及一种音频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前,语音识别技术被应用的场景越来越多,语音识别面临的环境越来越复杂,特别是目标声源(例如:点声源)和噪声声源(例如:扩散声源,扩散声源包含回声和风声等声源)混合在一起时,此时对目标声源的语音识别难度较大。由于噪声声源对目标声源会产生较大的干扰,因此在对目标声源和噪声声源混合在一起的混合声源进行语音识别时,导致目标声源的识别率较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种音频处理方法、装置、电子设备和可读存储介质,以提高目标声源的识别率。第一方面,本申请实施例提供了一种音频处理方法,所述音频处理方法包括:获取第一语音信号和第二语音信号,其中,所述第一语音信号中包含目标语音信号和噪声信号,所述第二语音信号中包含所述噪声信号;利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计;基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱。可选地,当所述第二语音信号中还包含所述目标语音信号,其中,所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值,所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时,所述利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,包括:分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换,得到所述第一语音信号的时频谱和所述第二语音信号的时频谱;分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行非负矩阵分解NMF处理,得到所述第一语音信号对应的第一NMF基矩阵和所述第二语音信号对应的第二NMF基矩阵;根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵;利用所述第三NMF基矩阵,对所述第一语音信号的时频谱进行重构处理,得到所述噪声估计。可选地,所述根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵,包括:根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵。可选地,所述根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵,包括:使用第三阈值,对所述第一NMF基矩阵中的各元素进行比较;根据比较结果,确定所述第一NMF基矩阵中大于或者等于所述第三阈值的元素所在的候选位置,以将所述候选位置作为所述目标语音信号对应的元素在所述第一NMF基矩阵中的位置;使用数字0,对所述第二NMF基矩阵中与所述候选位置相同的目标位置上的元素进行替换,以将替换后的所述第二NMF基矩阵作为所述第三NMF基矩阵。可选地,所述利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,包括:分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换,得到所述第一语音信号的时频谱和所述第二语音信号的时频谱;对所述第二语音信号的时频谱进行NMF处理,得到所述第二语音信号对应的第二NMF基矩阵;利用所述第二NMF基矩阵,对所述第一语音信号的时频谱进行重构处理,得到所述噪声估计。可选地,所述基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱,包括:基于所述噪声估计,去除所述第一语音信号的时频谱中的所述噪声信号,以得到所述目标语音信号的时频谱。可选地,所述基于所述噪声估计,去除所述第一语音信号的时频谱中的所述噪声信号,以得到所述目标语音信号的时频谱,包括:计算所述第一语音信号的时频谱与所述噪声估计的欧式距离;基于所述欧式距离,对所述第一语音信号的时频谱进行增益计算,以得到所述目标语音信号的时频谱。可选地,所述基于所述欧式距离,对所述第一语音信号的时频谱进行增益计算,以得到所述目标语音信号的时频谱,包括:对所述欧式距离进行正则化处理,以得到大于0小于1的增益系数;计算所述第一语音信号的时频谱和所述增益系数的乘积,以将所述乘积作为所述目标语音信号的时频谱。可选地,在得到所述目标语音信号的时频谱后,所述音频处理方法还包括:对所述目标语音信号的时频谱进行反傅里叶变换,得到所述目标语音信号的时域信号。可选地,在得到所述目标语音信号的时域信号后,所述音频处理方法还包括:对所述目标语音信号的时域信号进行语音识别。第二方面,本申请实施例提供了一种音频处理装置,所述音频处理装置包括:获取单元,用于获取第一语音信号和第二语音信号,其中,所述第一语音信号中包含目标语音信号和噪声信号,所述第二语音信号中包含所述噪声信号,所述获取单元将所述第一语音信号和所述第二语音信号发送给重构单元;所述重构单元,用于利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,所述重构单元将所述噪声估计和所述第一语音信号的时频谱发送给处理单元;所述处理单元,用于基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱。可选地,当所述第二语音信号中还包含所述目标语音信号,其中,所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值,所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时,所述重构单元的配置在用于利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,包括:分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换,得到所述第一语音信号的时频谱和所述第二语音信号的时频谱;分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行非负矩阵分解NMF处理,得到所述第一语音信号对应的第一NMF基矩阵和所述第二语音信号对应的第二NMF基矩阵;根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵;利用所述第三NMF基矩阵,对所述第一语音信号的时频谱进行重构处理,得到所述噪声估计。可选地,所述重构单元的配置在用于根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵,包括:根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵。可选地,所述重构单元的配置在用于根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵,包括:使用第三阈值,对所述第一NMF基矩阵中的各元素进行比较;根据比较结果,本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,所述音频处理方法包括:/n获取第一语音信号和第二语音信号,其中,所述第一语音信号中包含目标语音信号和噪声信号,所述第二语音信号中包含所述噪声信号;/n利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计;/n基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱。/n

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述音频处理方法包括:
获取第一语音信号和第二语音信号,其中,所述第一语音信号中包含目标语音信号和噪声信号,所述第二语音信号中包含所述噪声信号;
利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计;
基于所述噪声估计和所述第一语音信号的时频谱,得到所述目标语音信号的时频谱。


2.如权利要求1所述的音频处理方法,其特征在于,当所述第二语音信号中还包含所述目标语音信号,其中,所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值,所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时,所述利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,包括:
分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换,得到所述第一语音信号的时频谱和所述第二语音信号的时频谱;
分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行非负矩阵分解NMF处理,得到所述第一语音信号对应的第一NMF基矩阵和所述第二语音信号对应的第二NMF基矩阵;
根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵;
利用所述第三NMF基矩阵,对所述第一语音信号的时频谱进行重构处理,得到所述噪声估计。


3.如权利要求2所述的音频处理方法,其特征在于,所述根据所述第一NMF基矩阵和所述第二NMF基矩阵,得到所述噪声信号的第三NMF基矩阵,包括:
根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵。


4.如权利要求3所述的音频处理方法,其特征在于,所述根据所述第一NMF基矩阵,将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉,以得到所述第三NMF基矩阵,包括:
使用第三阈值,对所述第一NMF基矩阵中的各元素进行比较;
根据比较结果,确定所述第一NMF基矩阵中大于或者等于所述第三阈值的元素所在的候选位置,以将所述候选位置作为所述目标语音信号对应的元素在所述第一NMF基矩阵中的位置;
使用数字0,对所述第二NMF基矩阵中与所述候选位置相同的目标位置上的元素进行替换,以将替换后的所述第二NMF基矩阵作为所述第三NMF基矩阵。


5.如权利要求1所述的音频处理方法,其特征在于,所述利用所述第二语音信号,对所述第一语音信号的时频谱进行重构处理,得到所述第一语音信号的噪声估计,包括:
分别对所述第一...

【专利技术属性】
技术研发人员:张毅宋辉邓承韵沙永涛
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1