语音增强方法、电子设备、存储介质及芯片系统技术方案

技术编号：37490050 阅读：26 留言：0更新日期：2023-05-07 09:29

本申请适用于音频技术领域，提供了一种语音增强方法、电子设备、存储介质及芯片系统，所述方法包括：采集第一用户的第一人脸图像；若第一人脸图像与存储的人脸数据不匹配，则获取第一用户的声音特征；存储第一用户的第一人脸数据；采集第一用户的第二人脸图像和第一音频数据；若第二人脸图像与存储的第一人脸数据相匹配，则基于第一用户的声音特征，对第一音频数据中第一用户的声音进行增强后输出，通过采集第二人脸图像，可以提高识别第一用户的准确性，结合第一用户的声音特征，可以提高对第一音频数据中第一用户的声音进行增强的准确性。音频数据中第一用户的声音进行增强的准确性。音频数据中第一用户的声音进行增强的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、电子设备、存储介质及芯片系统

[0001]本申请涉及音频
，尤其涉及一种语音增强方法、电子设备、存储介质及芯片系统。

技术介绍

[0002]随着终端设备的不断发展，终端设备具备的功能不断增加，终端设备需要采用音视频通话功能的场景不断增加。
[0003]当终端设备处于音视频通话的场景中时，终端设备可以采集当前场景中用户发出的声音，得到音频数据。而当前场景中可以包括多种声音，终端设备采集的音频数据中除了用户发出的声音，还包括当前场景中的其他声音，也即是噪音。为了提高音视频通话的质量，终端设备可以对音频数据进行处理，例如去噪，或者对特定的声音(如用户发出的声音)进行增强。但是，当前终端设备对音频数据处理的效果不够准确，亟待提升。

技术实现思路

[0004]本申请提供一种语音增强方法、电子设备、存储介质及芯片系统，解决了现有技术中终端设备在对音频数据进行优化过程中，对用户声音进行语音增强的效果不够准确的问题。
[0005]为达到上述目的，本申请采用如下技术方案：
[0006...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，所述方法包括：采集第一用户的第一人脸图像；若所述第一人脸图像与存储的人脸数据不匹配，则获取所述第一用户的声音特征；存储所述第一用户的第一人脸数据；采集所述第一用户的第二人脸图像和第一音频数据；若所述第二人脸图像与存储的所述第一人脸数据相匹配，则基于所述第一用户的声音特征，对所述第一音频数据中所述第一用户的声音进行增强后输出。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：采集所述第一用户的第二音频数据；若所述第一人脸图像与存储的所述人脸数据不匹配，则根据所述第二音频数据输出第三音频数据，所述第三音频数据中所述第一用户的声音未进行增强。3.根据权利要求1或2所述的方法，其特征在于，所述若所述第二人脸图像与存储的所述第一人脸数据相匹配，则基于所述第一用户的声音特征，对所述第一音频数据中所述第一用户的声音进行增强后输出，包括：检测所述第一用户的唇部是否发生运动；若所述第二人脸图像与存储的所述第一人脸数据相匹配、且所述第一用户的唇部发生运动，则基于所述第一用户的声音特征，对所述第一音频数据中所述第一用户的声音进行增强后输出。4.根据权利要求3所述的方法，其特征在于，所述检测所述第一用户的唇部是否发生运动，包括：获取所述第一用户的第一唇动序列图像；检测所述第一唇动序列图像中的唇部是否发生运动；所述基于所述第一用户的声音特征，对所述第一音频数据中所述第一用户的声音进行增强后输出，包括：根据所述第一唇动序列图像、所述第二人脸图像和所述第一音频数据，通过所述语音增强网络，对所述第一音频数据中所述第一用户的声音进行增强后输出。5.根据权利要求1至4任一所述的方法，其特征在于，在所述基于所述第一用户的声音特征，对所述第一音频数据中所述第一用户的声音进行增强后输出之后，所述方法还包括：获取增强后的第一音频数据；检测所述增强后的第一音频数据是否出现消音现象；若所述增强后的第一音频数据出现消音现象，则再次获取所述第一用户的声音特征；若所述增强后的第一音频数据未出现消音现象，则继续基于所述第一用户的声音特征，对再次采集的音频数据中所述第一用户的声音进行增强后输出。6.根据权利要求1所述的方法，其特征在于，所述获取所述第一用户的声音特征，包括：采集所述第一用户的第四音频数据和第一序列图像，所述第一序列图像包括：人脸信息和唇部信息；基于所述第一序列图像和所述第四音频数据，获取所述第一用户的声音特征。7.根据权利要求6所述的方法，其特征在于，所述获取所述第一用户的声音特征，包括：通过语音增强网络学习所述第一用户的声音特征。
8.根据权利要求7所述的方法，其特征在于，所述通过语音增强网络学习所述第一用户的声音特征，包括：根据所述第一序列图像获取第三人脸图像和第二唇动序列图像；将所述第三人脸图像、所述第二唇动序列图像和所述第四音频数据输入所述语音增强网络，通过所述语音增强网络学习所述第一用户的声音特征。9.根据权利要求8所述的方法，其特征在于，在所述将所述第三人脸图像、所述第二唇动序列图像和所述第四音频数据输入所述语音增强网络，通过所述语音增强网络学习所述第一用户的声音特征之前，所述方法还包括：根据所述第二唇动序列图像，确定所述第一用户的唇部是否发生运动；根据所述第四音频数据确定当前场景是否为安静环境；所述将所述第三人脸图像、所述第二唇动序列图像和所述第四音频数据输入所述语音增强网络，通过所述语音增强网络学习所述第一用户的声音特征，包括：若所述当前场景为安静环境、且所述第一用户的唇部发生运动，则将所述第三人脸图像、所述第二唇动序列图像和所述第四音频数据输入所述语音增强网络，通过所述语音增强网络学习所述第一用户的声音特征。10.根据权利要求9所述的方法，其特征在于，所述根据所述第四音频数据确定当前场景是否为安静环境，包括：将所述第四音频数据输入所述语音增强网络，得到第一去噪数据；比较所述第四音频数据和所述第一去噪数据；若所述第四音频数据和所述第一去噪数据之间的相似度大于或等于相似阈值，则确定所述当前场景为安静环境；若所述第四音频数据和所述第一去噪数据之间的相似度小于所述相似阈值，则确定所述当前场景不是安静环境。11.根据权利要求8至10任一所述的方法，其特征在于，所述将所述第三人脸图像、所述第二唇动序列图像和所述第四音频数据输入所述语音增强网络，通过所述语音增强网络学习所述第一用户的声音特征，包括：将所述第四音频数据与预先存储的噪声数据进行混合，得到混音数据；将所述混音数据、所述第三人脸图像和所述第二唇动序列图像...

【专利技术属性】
技术研发人员：林泽一，刘恒，李力骏，李志刚，
申请(专利权)人：华为终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人