一种音视频语音增强处理方法及模型技术

技术编号：28843237 阅读：21 留言：0更新日期：2021-06-11 23:42

本申请公开了一种音视频语音增强处理方法及模型，方法包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据；基于多模态嵌入数据和带噪语音的声学特征处理得到带噪语音的预测掩膜；基于预测掩膜和带噪语音得到增强语音。上述实现方案中，合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用，针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题，使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入，在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种音视频语音增强处理方法及模型
本专利技术涉及信号处理
，更具体的说，是涉及一种音视频语音增强处理方法及模型。
技术介绍
语音增强旨在通过抑制带噪语音中的背景噪声成分来生成具有更好语音质量和清晰度的增强语音，它常被作为各种语音输入设备的前端。音视频语音增强旨在利用与语音同步的视频信号作为辅助输入，进一步提升增强语音的语音质量和可懂度。当前，基于深度神经网络的音视频语音增强是一种主流方法。对于基于深度神经网络的音视频语音增强模型来说，作为辅助的视频信号是以视频嵌入的形式被输入模型的。如何从原始的视频信号中提取出有用的视频嵌入，是目前音视频语音增强社区的一个研究热点，国内外有很多研究者提出了很有效的视频嵌入，例如基于视觉孤立词识别的唇部嵌入和基于视觉音素识别的唇部嵌入；上述基于视觉语音识别的唇部嵌入在高噪声环境下，确实都给语音增强模型带来了明显的性能提升，但是，在低噪声环境下，两种唇部嵌入不仅不能带来明显的性能提升，甚至还会造成性能的损失。这是由于视觉语音识别天然的不确定性造成的，即不是所有的单词/音素在视觉上都是可区分的，由此也造成视觉语音识别在低噪声场景下的鲁棒性很差。
技术实现思路
有鉴于此，本专利技术提供如下技术方案：一种音视频语音增强处理方法，包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；基于所述多模态嵌入数据和所述带噪语...

【技术保护点】
1.一种音视频语音增强处理方法，其特征在于，包括：/n从带噪语音中提取出帧级别的音频嵌入数据；/n从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；/n将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；/n基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；/n基于所述预测掩膜和所述带噪语音得到增强语音。/n

【技术特征摘要】
1.一种音视频语音增强处理方法，其特征在于，包括：
从带噪语音中提取出帧级别的音频嵌入数据；
从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；
将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；
基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；
基于所述预测掩膜和所述带噪语音得到增强语音。

2.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述从带噪语音中提取出帧级别的音频嵌入数据，包括：
采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。

3.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据，包括：
采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。

4.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据，包括：
将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接，得到嵌入拼接数据；
采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据，得到多模态嵌入数据。

5.根据权利要求1所述的音视频语音增强处理方法，其特征在于，所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜，包括：
将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理，得到特征拼接数据；
依次采用一维卷积残差快和激活函...

【专利技术属性】
技术研发人员：陈航，杜俊，戴礼荣，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人