一种音频处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：26175265 阅读：19 留言：0更新日期：2020-10-31 14:07

本申请提供了一种音频处理方法、装置、电子设备和可读存储介质，该音频处理方法包括：获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱，通过上述方法可以得到相对纯净的目标语音信号的时频谱，从而在对目标语音信号的时频谱进行识别时，有利于提高目标语音的识别率。

An audio processing method, device, electronic device and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种音频处理方法、装置、电子设备和可读存储介质
本申请涉及计算机
，具体而言，涉及一种音频处理方法、装置、电子设备和可读存储介质。
技术介绍
目前，语音识别技术被应用的场景越来越多，语音识别面临的环境越来越复杂，特别是目标声源(例如：点声源)和噪声声源(例如：扩散声源，扩散声源包含回声和风声等声源)混合在一起时，此时对目标声源的语音识别难度较大。由于噪声声源对目标声源会产生较大的干扰，因此在对目标声源和噪声声源混合在一起的混合声源进行语音识别时，导致目标声源的识别率较低。
技术实现思路
有鉴于此，本申请的目的在于提供一种音频处理方法、装置、电子设备和可读存储介质，以提高目标声源的识别率。第一方面，本申请实施例提供了一种音频处理方法，所述音频处理方法包括：获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。可选地，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：分别对所述第一...

【技术保护点】
1.一种音频处理方法，其特征在于，所述音频处理方法包括：/n获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；/n利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；/n基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。/n

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述音频处理方法包括：
获取第一语音信号和第二语音信号，其中，所述第一语音信号中包含目标语音信号和噪声信号，所述第二语音信号中包含所述噪声信号；
利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计；
基于所述噪声估计和所述第一语音信号的时频谱，得到所述目标语音信号的时频谱。

2.如权利要求1所述的音频处理方法，其特征在于，当所述第二语音信号中还包含所述目标语音信号，其中，所述目标语音信号在所述第一语音信号中的信号强度占比大于第一阈值，所述目标语音信号在所述第二语音信号中的信号强度占比小于第二阈值时，所述利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：
分别对所述第一语音信号的时域信号和所述第二语音信号的时域信号进行傅里叶变换，得到所述第一语音信号的时频谱和所述第二语音信号的时频谱；
分别对所述第一语音信号的时频谱和所述第二语音信号的时频谱进行非负矩阵分解NMF处理，得到所述第一语音信号对应的第一NMF基矩阵和所述第二语音信号对应的第二NMF基矩阵；
根据所述第一NMF基矩阵和所述第二NMF基矩阵，得到所述噪声信号的第三NMF基矩阵；
利用所述第三NMF基矩阵，对所述第一语音信号的时频谱进行重构处理，得到所述噪声估计。

3.如权利要求2所述的音频处理方法，其特征在于，所述根据所述第一NMF基矩阵和所述第二NMF基矩阵，得到所述噪声信号的第三NMF基矩阵，包括：
根据所述第一NMF基矩阵，将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三NMF基矩阵。

4.如权利要求3所述的音频处理方法，其特征在于，所述根据所述第一NMF基矩阵，将所述第二NMF基矩阵中的所述目标语音信号对应的元素去除掉，以得到所述第三NMF基矩阵，包括：
使用第三阈值，对所述第一NMF基矩阵中的各元素进行比较；
根据比较结果，确定所述第一NMF基矩阵中大于或者等于所述第三阈值的元素所在的候选位置，以将所述候选位置作为所述目标语音信号对应的元素在所述第一NMF基矩阵中的位置；
使用数字0，对所述第二NMF基矩阵中与所述候选位置相同的目标位置上的元素进行替换，以将替换后的所述第二NMF基矩阵作为所述第三NMF基矩阵。

5.如权利要求1所述的音频处理方法，其特征在于，所述利用所述第二语音信号，对所述第一语音信号的时频谱进行重构处理，得到所述第一语音信号的噪声估计，包括：
分别对所述第一...

【专利技术属性】
技术研发人员：张毅，宋辉，邓承韵，沙永涛，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人