音频处理方法、装置、终端设备及计算机存储介质制造方法及图纸

技术编号：24012960 阅读：72 留言：0更新日期：2020-05-02 02:22

本申请涉及终端人工智能(Artificial Intelligence，AI)领域，具体和语音识别领域相关，提供了一种音频处理方法、装置、终端设备及计算机存储介质，所述方法包括：获取待处理的人脸图像集和待降噪的音频信号；提取所述待处理的人脸图像集中各人脸图像的嘴部特征，提取所述待降噪的音频信号的频谱特征；将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型，得到频谱掩码；使用所述频谱掩码对所述待降噪的音频信号进行处理，得到目标音频信号。本申请可以解决现有的基于人脸的辅助降噪算法对终端设备的算力要求高，难以在低算力的终端设备上运行，运用场景有限的问题。

Audio processing method, device, terminal equipment and computer storage medium

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、终端设备及计算机存储介质
本申请属于终端人工智能(ArtificialIntelligence，AI)领域，具体和语音识别领域相关，尤其涉及一种音频处理方法、装置、终端设备及计算机存储介质。
技术介绍
当前有许多终端设备存在语音交互功能，如语音助手、语音输入法等。用户在使用这些终端设备时，如果用户处于较为安静的环境，则终端设备可以较为准确地对录取的音频数据进行识别。然而，一旦环境中的噪声水平较高，且终端设备没有配置适当的降噪措施，则音频数据的识别准确率会急剧下降。有效的降噪方式对具备语音交互功能的终端设备而言至关重要。有学者提出基于人脸的辅助降噪算法。人类可以在面对面的情况下通过观察说话人的面部变化，尤其是嘴部的运动，并结合听到的声音，从较高的噪声背景中过滤出说话人的语音信息。尤其在多人共同说话时，可以更好地针对目标说话人进行过滤。基于相似的原理，终端设备可以采集说话人的脸部图像和音频信号作为模型输入，以人的脸部图像对音频信号进行辅助降噪，从而得到更好的降噪效果。但是，由于现有的基于人脸的辅助降噪算法直接采用人脸图像作为模型输入，在连续视频帧中需要处理大量的人脸图像，并且每张人脸图像的像素众多，需要很高的计算量，在一些低算力的终端设备(例如手机、车载终端等)上难以运行。
技术实现思路
有鉴于此，本申请实施例提供了一种音频处理方法、装置、终端设备及计算机存储介质，以解决现有的基于人脸的辅助降噪算法对终端设备的算力要求高，难以在低算力的终端设备上运行，运用场...

【技术保护点】
1.一种音频处理方法，其特征在于，包括：/n获取待处理的人脸图像集和待降噪的音频信号；/n提取所述待处理的人脸图像集中各人脸图像的嘴部特征，提取所述待降噪的音频信号的频谱特征；/n将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型，得到频谱掩码；/n使用所述频谱掩码对所述待降噪的音频信号进行处理，得到目标音频信号。/n

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：
获取待处理的人脸图像集和待降噪的音频信号；
提取所述待处理的人脸图像集中各人脸图像的嘴部特征，提取所述待降噪的音频信号的频谱特征；
将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型，得到频谱掩码；
使用所述频谱掩码对所述待降噪的音频信号进行处理，得到目标音频信号。

2.如权利要求1所述的音频处理方法，其特征在于，在所述获取待处理的人脸图像集和待降噪的音频信号之前，还包括：
获取第一预设时长的检测音频信号；
对所述检测音频信号进行说话人数量识别，得到目标说话人数量；
相应的，所述获取待处理的人脸图像集和待降噪的音频信号包括：
若所述目标说话人数量大于1，则获取待处理的人脸图像集和待降噪的音频信号。

3.如权利要求1所述的音频处理方法，其特征在于，所述嘴部特征为所述人脸图像的嘴部区域的图像；
相应的，所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括：
识别并截取所述待处理的人脸图像集中各人脸图像的嘴部区域的图像。

4.如权利要求1所述的音频处理方法，其特征在于，所述嘴部特征为所述人脸图像对应的嘴部关键点的点云坐标矩阵；
相应的，所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括：
识别所述待处理的人脸图像集中各人脸图像对应的嘴部关键点；
根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵，得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。

5.如权利要求4所述的音频处理方法，其特征在于，所述根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵，得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵包括：
对所述人脸图像中各个嘴部关键点的坐标进行归一化处理，得到所述人脸图像中各个嘴部关键点的归一化坐标；
根据所述人脸图像中各个嘴部关键点的归一化坐标构建点云坐标矩阵，得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。

6.如权利要求1所述的音频处理方法，其特征在于，所述预设神经网络模型包括第一循环神经网络、第二循环神经网络、第三循环神经网络以及第一全连接网络；
相应的，所述将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型，得到频谱掩码包括：
将所述各人脸图像的嘴部特征输入第一循环神经网络，得到第一特征；
将所述待降噪的音频信号的频谱特征输入第二循环神经网络，得到第二特征；
拼接所述第一特征和所述第二特征，得到第三特征；
将所述第三特征输入第三循环神经网络，得到第四特征；
将所述第四特征输入第一全连接网络，得到频谱掩码。

7.如权利要求1所述的音频处理方法，其特征在于，所述方法还包括：
对所述目标音频信号进行语音识别，得到文本信息并展示。

8.如权利要求1所述的音频处理方法，其特征在于，所述方法还包括：
播放所述目标音频信号。

9.如权利要求1所述的音频处理方法，其特征在于，所述方法还包括：
将所述目标音频信号发送至指定的终端设备。

10.一种音频处理装置，其特征在于，包括：
数据获取模块，用于获取待处理的人脸图像集和待降噪的音频信号；
特征提取模块，用于提取所述待处理的人脸图像集中各人脸图像的嘴部特征，提取所述待降噪的音频信号的频谱...

【专利技术属性】
技术研发人员：耿杰，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人