一种语音增强方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号：37137781 阅读：19 留言：0更新日期：2023-04-06 21:39

本发明专利技术公开了一种语音增强方法、装置、计算机设备以及计算机可读存储介质，涉及计算机应用技术领域，其中方法包括：获取音视频数据，其中所述音视频数据包含图像信息和语音信号；确定所述语音信号中是否存在人声；若存在所述人声，确定所述图像信息中是否存在对应的面部信息；若存在所述面部信息，则根据所述面部信息调整噪声增益因子；利用所述噪声增益因子抑制噪声得到增强的所述语音信号；相较于现有的增强语音的方法，本发明专利技术通过音视频信息结合实现语音增强的方法，避免受到环境噪声的影响，更好地抑制非稳态噪声，能更准确地识别语音信号，提高了语音的质量以及具有较高的鲁棒性。提高了语音的质量以及具有较高的鲁棒性。提高了语音的质量以及具有较高的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强方法、装置、计算机设备以及存储介质

[0001]本专利技术涉及计算机应用
，特别涉及一种语音增强方法、装置、计算机设备以及计算机可读存储介质。

技术介绍

[0002]在很多视频会话场景中，麦克风采集人声的同时也会采集到的背景噪声，这会大大降低用户体验，会加大视频另一端的人对说话内容理解的难度，因此需要对声音信号进行语音增强处理包括去除噪声，还有提高人说话声质量等。
[0003]目前现有的语音增强方法可以分为传统方法和深度学习这两种方法，其中传统方法包含噪声估计和噪声抑制两个步骤，根据输入的语音信号判断是否存在噪声，当语音不存在时更新噪声估计，然后使用统计学方法、维纳滤波或者谱减法方法等方法在含噪信号上进行噪声抑制。但是使用传统方法不能抑制非稳态噪声，在低信噪比下，噪声估计的准确率降低，会把弱人声成分当作噪声，这样就会导致噪声去除不干净、损伤人声质量。并且在低信噪比下，基音估计和共振峰准确率也会降低，无法对基音和他的倍频进行保护，无法使用共振峰来减少语音失真。另一种深度学习方法需要搭建深度学习模型，学...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，其特征在于，包括：获取音视频数据，其中所述音视频数据包含图像信息和语音信号；确定所述语音信号中是否存在人声；若存在所述人声，确定所述图像信息中是否存在对应的面部信息；若存在所述面部信息，则根据所述面部信息调整噪声增益因子；利用所述噪声增益因子抑制噪声得到增强的所述语音信号。2.如权利要求1所述的语音增强方法，其特征在于，所述根据所述面部信息调整噪声增益因子，包括：提取所述面部信息中的唇部动作信息，利用动作识别模块识别所述唇部动作信息得到发音的音素；根据所述音素，从数据库中提取正常发音的基音与共振峰频率；根据所述基音与所述共振峰频率，调整所述噪声增益因子。3.如权利要求2所述的语音增强方法，其特征在于，所述提取所述面部信息中的唇部动作信息，包括：利用神经网络模型提取所述面部信息得到所述唇部动作信息。4.如权利要求1所述的语音增强方法，其特征在于，所述获取音视频数据之后，还包括：提取所述语音信号得到音频特征；提取所述图像信息得到唇部信息；利用时间同步将所述音频特征与所述唇部信息拼接得到音视频融合信息；相应的，所述确定所述图像信息中是否存在对应的面部信息，包括：确定所述音视频融合信息中是否存在与所述音频特征对应的所述唇部信息。5.如权利要求4所述的语音增强方法，其特征在于，所述提取所述图像信息得到唇部信息，包括：对所述图像信息进行唇部定位；根据所...

【专利技术属性】
技术研发人员：谢鹏，
申请(专利权)人：湖南国科微电子股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人