语音信号的处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：31502037 阅读：35 留言：0更新日期：2021-12-22 23:21

本申请实施例提供了一种语音信号的处理方法、装置、电子设备及可读存储介质，涉及人工智能、音视频和区块链技术领域。该方法包括：将接收的远端语音信号进行滤波处理，得到回声预测信号；采集近端语音信号；获取近端语音信号的第一频域表达和回声预测信号的第二频域表达；基于第一频域表达和第二频域表达，通过预先训练好的神经网络模型得到近端语音信号的频带增益，频带增益表征了近端语音信号中有效语音信号的权重；根据频带增益，对近端语音信号进行干扰信号的消除，实现了消除干扰信号时更好地保留近端语音信号中的有效语音信号，进一步提升消除干扰信号的性能，尤其是多端讲话的场景中，能更好地保留近端人声，提升用户体验。验。验。

全部详细技术资料下载

【技术实现步骤摘要】
语音信号的处理方法、装置、电子设备及可读存储介质

[0001]本申请涉及信号处理
，具体而言，本申请涉及一种语音信号的处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着VoIP(Voice over Internet Protocol，基于IP的语音传输)软件等语音通话技术越来越普及，语音通话质量收到越来越多关注。在多人(两人或两人以上)通话的时候，进入麦克风的除了近端的说话人声，还可能有电学回声、声学回声及近端的环境噪声等干扰声音。若这些干扰声音被传到远端让远端说话人听到，会严重影响语音交互的体验，因此在近端需要进行干扰信号的消除。
[0003]现有技术中，多端讲话的干扰信号消除的性能一直是业界难点，虽然现有技术中已经有多种不同的消除干扰信号的方法，但是每种方法的效果都有待改善。

技术实现思路

[0004]本申请实施例提供了一种语音信号的处理方法、装置、电子设备及可读存储介质，达到更好地消除干扰信号的目的。技术方案如下：
[0005]根据本申请的一个方面，提供了一种语...

【技术保护点】

【技术特征摘要】
1.一种语音信号的处理方法，其特征在于，包括：将接收的远端语音信号进行滤波处理，得到回声预测信号；采集近端语音信号；获取所述近端语音信号的第一频域表达和所述回声预测信号的第二频域表达；基于所述第一频域表达和所述第二频域表达，通过预先训练好的神经网络模型得到所述近端语音信号的频带增益，所述频带增益表征了所述近端语音信号中有效语音信号的权重；根据所述频带增益，对所述近端语音信号进行干扰信号的消除，得到处理后的近端语音信号。2.根据权利要求1所述的处理方法，其特征在于，所述基于所述第一频域表达和所述第二频域表达，通过预先训练好的神经网络模型得到所述近端语音信号的频带增益，包括：基于所述第一频域表达和所述第二频域表达，确定所述近端语音信号和所述回声预测信号的频域信息差异；基于所述频域信息差异，通过训练好的神经网络模型得到所述近端语音信号的频带增益。3.根据权利要求2所述的处理方法，其特征在于，所述基于所述频域信息差异，通过训练好的神经网络模型得到所述近端语音信号的频带增益，包括：将所述第一频域表达和所述频域信息差异进行拼接，得到拼接后的频域信息；基于所述拼接后的频域信息，通过训练好的神经网络模型得到所述近端语音信号的频带增益。4.根据权利要求1至3中任一项所述的处理方法，其特征在于，所述获取所述近端语音信号的第一频域表达和所述回声预测信号的第二频域表达，包括：获取所述近端语音信号所包含的各帧第一信号的第一频谱，以及所述回声预测信号所包含的各帧第二信号的第二频谱；基于每帧所述第一信号的第一频谱，得到每帧所述第一信号的第一频域表达；基于每帧所述第二信号的第二频谱，得到每帧所述第二信号的第二频域表达；基于所述第一频域表达和所述第二频域表达，通过预先训练好的神经网络模型得到所述近端语音信号所包含的各帧第一信号的频带增益，包括：对于每帧所述第一信号，基于该帧第一信号的第一频域表达和所述回声预测信号中该帧第一信号对应帧的第二信号的第二频域表达，通过预先训练好的神经网络模型得到该帧第一信号的频带增益。5.根据权利要求4所述的处理方法，其特征在于，所述各帧第一信号和所述各帧第二信号中每帧信号的频谱均包括多个频点的幅度值，对于每帧信号，基于该帧信号的频谱，得到该帧信号的频域表达，包括：基于该帧信号的频谱包含的每个频点的幅度值，得到该帧信号的每个频点对应的频域表达；其中，该帧第一信号对应的频带增益包括该帧第一信号的第一频谱所包含的各频点对应的频带增益；所述根据所述频带增益，对所述近端语音信号进行干扰信号的消除，得到处理后的近端语音信号，包括：
确定所述近端语音信号与所述回声预测信号的残差信号；获取所述残差信号中所包含的各帧信号的第三频谱；对于每帧所述第一信号，基于该帧第一信号所对应的各频点的频带增益，对所述残差信号中对应帧的频谱所包含的各频点的幅度值进行加权计算，得到该帧第一信号对应的第四频谱；基于各所述第一信号对应的各第四频谱进行频时变换，得到处理后的近端语音信号。6.根据权利要求4所述的处理方法，其特征在于，所述各帧第一信号和所述各帧第二信号中每帧信号的频谱均包括多个频点的幅度值，对于每帧信号，基于该帧信号的频谱，得到该帧信号的频域表达，包括：将该帧信号的频谱划分为M个子带，将每个子带对应的各频点的幅度值进行融合，得到融合后的幅度值，M≥1；基于每个所述子带对应的...

【专利技术属性】
技术研发人员：高毅，张思宇，罗程，李斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人