一种音视频语音增强处理方法及模型技术

技术编号:28843237 阅读:21 留言:0更新日期:2021-06-11 23:42
本申请公开了一种音视频语音增强处理方法及模型,方法包括:从带噪语音中提取出帧级别的音频嵌入数据;从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据;基于多模态嵌入数据和带噪语音的声学特征处理得到带噪语音的预测掩膜;基于预测掩膜和带噪语音得到增强语音。上述实现方案中,合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用,针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题,使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入,在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。

【技术实现步骤摘要】
一种音视频语音增强处理方法及模型
本专利技术涉及信号处理
,更具体的说,是涉及一种音视频语音增强处理方法及模型。
技术介绍
语音增强旨在通过抑制带噪语音中的背景噪声成分来生成具有更好语音质量和清晰度的增强语音,它常被作为各种语音输入设备的前端。音视频语音增强旨在利用与语音同步的视频信号作为辅助输入,进一步提升增强语音的语音质量和可懂度。当前,基于深度神经网络的音视频语音增强是一种主流方法。对于基于深度神经网络的音视频语音增强模型来说,作为辅助的视频信号是以视频嵌入的形式被输入模型的。如何从原始的视频信号中提取出有用的视频嵌入,是目前音视频语音增强社区的一个研究热点,国内外有很多研究者提出了很有效的视频嵌入,例如基于视觉孤立词识别的唇部嵌入和基于视觉音素识别的唇部嵌入;上述基于视觉语音识别的唇部嵌入在高噪声环境下,确实都给语音增强模型带来了明显的性能提升,但是,在低噪声环境下,两种唇部嵌入不仅不能带来明显的性能提升,甚至还会造成性能的损失。这是由于视觉语音识别天然的不确定性造成的,即不是所有的单词/音素在视觉上都是可区分的,由此也造成视觉语音识别在低噪声场景下的鲁棒性很差。
技术实现思路
有鉴于此,本专利技术提供如下技术方案:一种音视频语音增强处理方法,包括:从带噪语音中提取出帧级别的音频嵌入数据;从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;基于所述预测掩膜和所述带噪语音得到增强语音。可选的,所述从带噪语音中提取出帧级别的音频嵌入数据,包括:采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。可选的,所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据,包括:采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。可选的,所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据,包括:将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接,得到嵌入拼接数据;采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据,得到多模态嵌入数据。可选的,所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜,包括:将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理,得到特征拼接数据;依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理,得到所述带噪语音的预测掩膜。可选的,所述基于所述预测掩膜和所述带噪语音得到增强语音,包括:将所述预测掩膜和所述与所述带噪语音的幅度谱相乘,得到相乘结果;基于所述相乘结果和所述带噪语音的相位重建出增强语音。可选的,还包括:对所述音视频语音增强处理方法进行优化。可选的,所述对所述音视频语音增强处理方法进行优化,包括:采用随机梯度算法或随机梯度算法的改进算法,最小化神经网络模型在训练集的损失函数来进行神经网络参数的训练,所述神经网络模型为所述音视频语音增强处理方法对应的神经网络模型。一种音视频语音增强处理模型,包括:音频嵌入提取模块,用于从带噪语音中提取出帧级别的音频嵌入数据;视频嵌入提取模块,用于并从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;嵌入融合模块,用于将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;增强处理模块,用于基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;增强确定模块,用于基于所述预测掩膜和所述带噪语音得到增强语音。可选的,所述音频嵌入提取模块、视频嵌入提取模块和所述嵌入融合模块属于嵌入提取模块,所述嵌入提取模块和所述增强处理模块使用相同的数据和不同的标签分开训练。经由上述的技术方案可知,与现有技术相比,本专利技术实施例公开了一种音视频语音增强处理方法及模型,方法包括:从带噪语音中提取出帧级别的音频嵌入数据;从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;基于所述预测掩膜和所述带噪语音得到增强语音。上述实现方案中,合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用,针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题,使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入,在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的一种音视频语音增强处理方法的流程图;图2为本申请实施例公开的嵌入融和处理的流程图;图3为本申请实施例公开的得到预测掩膜的流程图;图4为本申请实施例公开的一种音视频语音增强处理模型的结构示意图;图5为本申请实施例公开的音视频语音增强模型的原理架构实现示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本申请实施例公开的一种音视频语音增强处理方法的流程图,参见图1所示,音视频语音增强处理方法可以包括:步骤101:从带噪语音中提取出帧级别的音频嵌入数据。其中的带噪语音,具体可以是带噪语音的帧级别的声学特征,如Fbank特征。步骤101具体可以包括:采用全卷积神经网络(convolutionalneuralnetwork,CNNs)从带噪语音的音频特征中提取出帧级别的音频嵌入数据。例如,一个实现中,可以使用一个全卷积神经网络来从带噪语音中提取帧一级包含高级的语义表示的音频嵌入。在本申请中,认为高级别的语义对于噪声具有很强的鲁棒性,其中的高级的语义表示,指的是包含语义信息的抽象程度较高(高级)的表示,在每个离散时间上的数学形式是一个向量。步骤102:从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。一个实现中,步骤102可以包括:采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。具体的,可以使唇部区域的灰度图像序列依次通过本文档来自技高网...

【技术保护点】
1.一种音视频语音增强处理方法,其特征在于,包括:/n从带噪语音中提取出帧级别的音频嵌入数据;/n从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;/n将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;/n基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;/n基于所述预测掩膜和所述带噪语音得到增强语音。/n

【技术特征摘要】
1.一种音视频语音增强处理方法,其特征在于,包括:
从带噪语音中提取出帧级别的音频嵌入数据;
从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;
将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;
基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;
基于所述预测掩膜和所述带噪语音得到增强语音。


2.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述从带噪语音中提取出帧级别的音频嵌入数据,包括:
采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。


3.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据,包括:
采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。


4.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据,包括:
将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接,得到嵌入拼接数据;
采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据,得到多模态嵌入数据。


5.根据权利要求1所述的音视频语音增强处理方法,其特征在于,所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜,包括:
将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理,得到特征拼接数据;
依次采用一维卷积残差快和激活函...

【专利技术属性】
技术研发人员:陈航杜俊戴礼荣
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1