音频处理方法、装置、终端设备及计算机存储介质制造方法及图纸

技术编号:24012960 阅读:72 留言:0更新日期:2020-05-02 02:22
本申请涉及终端人工智能(Artificial Intelligence,AI)领域,具体和语音识别领域相关,提供了一种音频处理方法、装置、终端设备及计算机存储介质,所述方法包括:获取待处理的人脸图像集和待降噪的音频信号;提取所述待处理的人脸图像集中各人脸图像的嘴部特征,提取所述待降噪的音频信号的频谱特征;将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码;使用所述频谱掩码对所述待降噪的音频信号进行处理,得到目标音频信号。本申请可以解决现有的基于人脸的辅助降噪算法对终端设备的算力要求高,难以在低算力的终端设备上运行,运用场景有限的问题。

Audio processing method, device, terminal equipment and computer storage medium

【技术实现步骤摘要】
音频处理方法、装置、终端设备及计算机存储介质
本申请属于终端人工智能(ArtificialIntelligence,AI)领域,具体和语音识别领域相关,尤其涉及一种音频处理方法、装置、终端设备及计算机存储介质。
技术介绍
当前有许多终端设备存在语音交互功能,如语音助手、语音输入法等。用户在使用这些终端设备时,如果用户处于较为安静的环境,则终端设备可以较为准确地对录取的音频数据进行识别。然而,一旦环境中的噪声水平较高,且终端设备没有配置适当的降噪措施,则音频数据的识别准确率会急剧下降。有效的降噪方式对具备语音交互功能的终端设备而言至关重要。有学者提出基于人脸的辅助降噪算法。人类可以在面对面的情况下通过观察说话人的面部变化,尤其是嘴部的运动,并结合听到的声音,从较高的噪声背景中过滤出说话人的语音信息。尤其在多人共同说话时,可以更好地针对目标说话人进行过滤。基于相似的原理,终端设备可以采集说话人的脸部图像和音频信号作为模型输入,以人的脸部图像对音频信号进行辅助降噪,从而得到更好的降噪效果。但是,由于现有的基于人脸的辅助降噪算法直接采用人脸图像作为模型输入,在连续视频帧中需要处理大量的人脸图像,并且每张人脸图像的像素众多,需要很高的计算量,在一些低算力的终端设备(例如手机、车载终端等)上难以运行。
技术实现思路
有鉴于此,本申请实施例提供了一种音频处理方法、装置、终端设备及计算机存储介质,以解决现有的基于人脸的辅助降噪算法对终端设备的算力要求高,难以在低算力的终端设备上运行,运用场景有限的问题。本申请实施例的第一方面提供了一种音频处理方法,包括:获取待处理的人脸图像集和待降噪的音频信号;提取所述待处理的人脸图像集中各人脸图像的嘴部特征,提取所述待降噪的音频信号的频谱特征;将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码;使用所述频谱掩码对所述待降噪的音频信号进行处理,得到目标音频信号。需要说明的是,上述嘴部特征可以根据实际情况进行确定。例如,上述嘴部特征可以为人脸图像中嘴部区域的图像,又或者,上述嘴部特征可以为人脸图像中嘴部关键点的点云坐标矩阵。在音频处理的过程中,将嘴部特征作为预设神经网络的输入,使得预设神经网络不需要处理人脸图像中其他部位的冗余信息,可以极大地减少预设神经网络的计算量,从而降低对终端设备的算力要求。在第一方面的一种可能的实现方式中,在所述获取待处理的人脸图像集和待降噪的音频信号之前,还包括:获取第一预设时长的检测音频信号;对所述检测音频信号进行说话人数量识别,得到目标说话人数量;相应的,所述获取待处理的人脸图像集和待降噪的音频信号包括:若所述目标说话人数量大于1,则获取待处理的人脸图像集和待降噪的音频信号。需要说明的是,第一预设时长可以根据实际需求进行设置。当检测到目标说话人数量大于1时,为了更好地识别用户的人声信号,抑制不需要的环境噪声,可以启用人脸辅助降噪功能,获取待处理的人脸图像集和待降噪的音频信号以执行后续处理流程。在第一方面的一种可能的实现方式中,所述嘴部特征为所述人脸图像的嘴部区域的图像;相应的,所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括:识别并截取所述待处理的人脸图像集中各人脸图像的嘴部区域的图像。需要说明的是,嘴部特征可以为人脸图像的嘴部区域的图像,此时,可以通过感兴趣区域(Regionofinterest,ROI)提取算法或其他提取算法提取人脸图像中的嘴部区域的图像。在第一方面的另一种可能的实现方式中,所述嘴部特征为所述人脸图像对应的嘴部关键点的点云坐标矩阵;相应的,所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括:识别所述待处理的人脸图像集中各人脸图像对应的嘴部关键点;根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。需要说明的是,嘴部特征可以为人脸图像对应的嘴部关键点的点云坐标矩阵。终端设备可以使用人脸关键点识别模型识别人脸图像集中各人脸图像对应的嘴部关键点。在第一方面的一种可能的实现方式中,所述根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵包括:对所述人脸图像中各个嘴部关键点的坐标进行归一化处理,得到所述人脸图像中各个嘴部关键点的归一化坐标;根据所述人脸图像中各个嘴部关键点的归一化坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。需要说明的是,对嘴部关键点的坐标进行归一化处理可以有效解决人脸图像中嘴部位置和距离偏移的问题,为后续处理流程提供计算量更小,鲁棒性更高的嘴部特征。在第一方面的一种可能的实现方式中,所述预设神经网络模型包括第一循环神经网络、第二循环神经网络、第三循环神经网络以及第一全连接网络;相应的,所述将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码包括:将所述各人脸图像的嘴部特征输入第一循环神经网络,得到第一特征;将所述待降噪的音频信号的频谱特征输入第二循环神经网络,得到第二特征;拼接所述第一特征和所述第二特征,得到第三特征;将所述第三特征输入第三循环神经网络,得到第四特征;将所述第四特征输入第一全连接网络,得到频谱掩码。需要说明的是,当采用第一循环神经网络和第二循环神经网络接收各人脸图像的嘴部特征和待降噪的音频信号的频谱特征时,由于循环神经网络的结构为按时序输入的神经网络结构,因此,可以每接收到一帧人脸图像的嘴部特征和一帧第一音频信号帧的频谱特征就执行一次处理操作,从而实时处理每一帧人脸图像的嘴部特征和每一帧第一音频信号帧的频谱特征,扩大了音频处理方法的应用场景。在第一方面的一种可能的实现方式中,所述方法还包括:对所述目标音频信号进行语音识别,得到文本信息并展示。需要说明的是,终端设备可以根据用户的语音识别指令,使用语音识别(AutomaticSpeechRecognition,ASR)引擎对目标音频信号进行语音识别,将识别得到文本信息展示给用户。在第一方面的一种可能的实现方式中,所述方法还包括:播放所述目标音频信号。需要说明的是,终端设备可以根据用户的回放指令,播放上述目标音频信号,方便用户收听降噪后的语音效果。在第一方面的一种可能的实现方式中,所述方法还包括:将所述目标音频信号发送至指定的终端设备。需要说明的是,终端设备可以根据用户的文件发送指令,将上述目标音频信号发送至指定的终端设备。本申请实施例的第二方面提供了一种音频处理装置,包括:数据获取模块,用于获取待处理的人脸图像集和待降噪的音频信号;特征提取模块,用于提取所述待处理的人脸图像集中本文档来自技高网...

【技术保护点】
1.一种音频处理方法,其特征在于,包括:/n获取待处理的人脸图像集和待降噪的音频信号;/n提取所述待处理的人脸图像集中各人脸图像的嘴部特征,提取所述待降噪的音频信号的频谱特征;/n将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码;/n使用所述频谱掩码对所述待降噪的音频信号进行处理,得到目标音频信号。/n

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:
获取待处理的人脸图像集和待降噪的音频信号;
提取所述待处理的人脸图像集中各人脸图像的嘴部特征,提取所述待降噪的音频信号的频谱特征;
将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码;
使用所述频谱掩码对所述待降噪的音频信号进行处理,得到目标音频信号。


2.如权利要求1所述的音频处理方法,其特征在于,在所述获取待处理的人脸图像集和待降噪的音频信号之前,还包括:
获取第一预设时长的检测音频信号;
对所述检测音频信号进行说话人数量识别,得到目标说话人数量;
相应的,所述获取待处理的人脸图像集和待降噪的音频信号包括:
若所述目标说话人数量大于1,则获取待处理的人脸图像集和待降噪的音频信号。


3.如权利要求1所述的音频处理方法,其特征在于,所述嘴部特征为所述人脸图像的嘴部区域的图像;
相应的,所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括:
识别并截取所述待处理的人脸图像集中各人脸图像的嘴部区域的图像。


4.如权利要求1所述的音频处理方法,其特征在于,所述嘴部特征为所述人脸图像对应的嘴部关键点的点云坐标矩阵;
相应的,所述提取所述待处理的人脸图像集中各人脸图像的嘴部特征包括:
识别所述待处理的人脸图像集中各人脸图像对应的嘴部关键点;
根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。


5.如权利要求4所述的音频处理方法,其特征在于,所述根据所述人脸图像中各个嘴部关键点的坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵包括:
对所述人脸图像中各个嘴部关键点的坐标进行归一化处理,得到所述人脸图像中各个嘴部关键点的归一化坐标;
根据所述人脸图像中各个嘴部关键点的归一化坐标构建点云坐标矩阵,得到所述各人脸图像对应的嘴部关键点的点云坐标矩阵。


6.如权利要求1所述的音频处理方法,其特征在于,所述预设神经网络模型包括第一循环神经网络、第二循环神经网络、第三循环神经网络以及第一全连接网络;
相应的,所述将所述各人脸图像的嘴部特征和所述待降噪的音频信号的频谱特征输入预设神经网络模型,得到频谱掩码包括:
将所述各人脸图像的嘴部特征输入第一循环神经网络,得到第一特征;
将所述待降噪的音频信号的频谱特征输入第二循环神经网络,得到第二特征;
拼接所述第一特征和所述第二特征,得到第三特征;
将所述第三特征输入第三循环神经网络,得到第四特征;
将所述第四特征输入第一全连接网络,得到频谱掩码。


7.如权利要求1所述的音频处理方法,其特征在于,所述方法还包括:
对所述目标音频信号进行语音识别,得到文本信息并展示。


8.如权利要求1所述的音频处理方法,其特征在于,所述方法还包括:
播放所述目标音频信号。


9.如权利要求1所述的音频处理方法,其特征在于,所述方法还包括:
将所述目标音频信号发送至指定的终端设备。


10.一种音频处理装置,其特征在于,包括:
数据获取模块,用于获取待处理的人脸图像集和待降噪的音频信号;
特征提取模块,用于提取所述待处理的人脸图像集中各人脸图像的嘴部特征,提取所述待降噪的音频信号的频谱...

【专利技术属性】
技术研发人员:耿杰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1