System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种联合语音增强方法及其模型搭建方法技术_技高网

一种联合语音增强方法及其模型搭建方法技术

技术编号:40973972 阅读:2 留言:0更新日期:2024-04-18 21:22
本发明专利技术提供了一种联合语音增强方法及其模型搭建方法,属于语音识别模型技术领域。首先,获取若干说话人的视频和相应音频的原始数据,对获取的数据集进行预处理,获取语音的语谱图、面部帧构建数据集;联合语音增强模型结构包括音频特征处理模块、视觉特征处理模块、双路SE视听特征融合模块和网络输出模块,搭建一个新的视听语音增强模型,并对模型进行训练选取最终模型;模型搭建完成后用于混合音频增强。本发明专利技术提出的基于挤压激励融合视听特征的语音增强模型,与使用单一音频流的方法或是其他融合视听特征融合方法相比,取得了明显性能提升。在公开数据集上进行对比实验,验证了该方法的有效性。

【技术实现步骤摘要】

本专利技术属于语音识别模型,尤其涉及一种联合语音增强方法及其模型搭建方法


技术介绍

1、通常,正常听力的听众能够专注于特定的声学刺激,针对目标语音或感兴趣的语音,同时过滤掉其他声音,这种众所周知的现象被称为鸡尾酒会效应,因为它类似于鸡尾酒会上发生的情况,由此引发了人们对语音增强这一问题的关注。语音增强的目的是消除信号中的噪声成分同时保留干净的语音信号,提高语音质量和可懂度。随着数字信号处理技术的发展,语音增强技术也得到了很大的发展和改进。通过数字技术对语音信号进行滤波、增强、去混响等处理,语音信号的质量和清晰度得以进一步提高。基于数字信号处理技术的语音增强,可以分为传统的数字语音增强方法和基于神经网络的语音增强方法两大类。

2、传统的数字语音增强方法通常是基于时域或频域进行信号处理的,常见的方法包括谱减法、维纳滤波法、子空间法等。其只适用于简单噪声场景,但现实中的噪声场景通常比较复杂。近年来,由于具有良好的泛化性能,可以从大量的数据中自动学习特征,应对不同的语音增强场景和任务,深度学习在语音增强领域的应用逐渐增多。众多表现良好的语音增强的模型被提出。

3、然而,语音感知本质上是多模态的,特别是视听,因为除了到达听众耳朵的声学语音信号之外,一些有助于语音产生的发音器官(例如舌头、牙齿、嘴唇、下巴和面部表情)的位置和运动也可能对接收者可见。神经科学和言语感知的研究表明,言语的视觉方面对人类将听觉注意力集中在特定刺激上的能力有潜在的强烈影响。2018年谷歌提出了一个基于深度学习联合视听语音分离/增强模型,相比纯音频方法显著提高了其增强性能。但上述方法对视听信息融合方面做的不够充分,如何有效地结合音视频特征,使其提高语音增强效果仍然值得探讨。


技术实现思路

1、针对上述问题,本专利技术第一方面提供了一种联合语音增强模型的搭建方法,包括以下过程:

2、步骤1,获取若干说话人的视频和相应音频的原始数据;

3、步骤2,对步骤1中获取的原始数据进行预处理;将视频分别处理为一帧一帧的图像,同时从原始数据中随机选取一个说话人的数据和一个噪声数据,将其中的音频混合按一定比例混合后对混合语音做短时傅里叶变换得到语音的语谱图,结合说话人数据对应的面部帧构建数据集,并划分为训练集、验证集和测试集;

4、步骤3,基于resnet18网络结构和cbam注意力机制,构建视觉特征处理模块;基于3个cnn卷积块的组合,构建音频特征处理模块;基于se模块结构,在传统的se模块基础上增加了视频流输入,对视听特征分别进行压缩,然后合并压缩特征,最后由输入音频特征进行激励,构建为一个双路se视听特征融合模块;基于双向lstm网络结构和全连接层,构建为网络输出模块;将上述四个网络模块结合,构建为基于挤压激励融合视听特征的联合语音增强模型;

5、其中,模型将混合语音的语谱图和视频面部帧作为输入,模型输出为预测音频语谱图,最终将预测语谱图进行逆短时傅里叶变换得到最终预测音频;

6、步骤4,使用预处理后的数据集对构建的联合语音增强模型进行训练与测试评估,获取最终联合语音增强模型。

7、优选的,所述步骤2中预处理的具体过程为:

8、首先将每一个视频以每秒25帧进行裁剪,得到按照时间维度排列的图像,对于每一张图像使用现有的基于opencv库的mtcnn人脸检测器提取每张图片中的目标说话人的人脸缩略图,使用facenet预训练模型来提取每个人脸缩略图的人脸特征,facenet预训练模型经过训练大量人脸图片得到;然后从原始数据中随机选取一个说话人的数据和一个噪声数据,将其中的音频混合后对混合语音做短时傅里叶变换得到语音的语谱图,结合说话人数据对应的面部特征构建数据集。

9、优选的,所述视觉特征处理模块由修改后的resnet18残差网络和卷积块注意力模块cbam组成;

10、所述修改后的resnet18残差网络,包括1个conv5卷积层,4个conv_res层;其中conv5层由大小为5×5步长为1的卷积核、批归一化bn层以及relu激活函数组成,每个conv_res层由两个相同的卷积块组成,每个卷积块包含一个大小为1×7步长为1的卷积核、bn层以及relu激活函数;卷积块的输入输出公式可由下式表示:

11、y = relu(x + bn(conv_res (relu(bn(conv_res (x))))))

12、其中,x代表卷积块的输入,y代表卷积块的输出;所述conv_res是1×7卷积运算;修改后的resnet18残差网络的输出作为cbam模块的输入;

13、所述cbam模块由通道注意力模块和空间注意力模块组成,所述cbam模块位于修改后的resnet18残差网络之后,用于高效的提取和音频相关性较大的人脸关键区域,忽略人脸之外的次要区域;

14、所述cbam模块的输出作为网络提取的初步视觉特征,其用作双路se视听特征融合模块的一部分输入。

15、优选的,所述音频特征处理模块由3个cnn卷积块组成;每个卷积块包括2d卷积层、批量归一化bn和relu激活函数;所述2d卷积层卷积核大小为55,步长为1;所述cnn卷积块的输出作为网络提取的初步音频特征,其用作双路se视听特征融合模块的另一部分输入。

16、优选的,所述双路se视听特征融合模块,基于挤压激励模块改进,包括一个2d卷积层、双路se视听特征融合结构、批量归一化bn和relu激活函数;

17、所述2d卷积层为处理音频特征处理模块的输出,其由一个大小为5×5步长为1的卷积核、一个bn层以及一个relu激活函数组成;

18、所述双路se视听特征融合结构输入为处理视觉特征处理模块的输出和2d卷积层处理后的音频特征,其结构由对视频输入特征进行压缩操作,对音频输入特征进行压缩操作、1d卷积层调整通道维度操作、延展成1维向量的操作,对压缩后的音视频特征进行拼接操作,对拼接后的音视频特征利用全连接层重塑维度操作,将输入音频特征与重塑后的音视频融合特征进行哈达玛乘积操作;

19、视频输入特征压缩操作为,对输入视频特征进行全局平均池化,即空间注意力机制操作;压缩的视频特征为一个一维向量;

20、音频输入特征压缩操作为,对输入音频特征进行计算通道维度的平均值,即空间注意力机制操作;

21、所述1d卷积层调整通道维度操作,是将压缩后的音频输入特征进行1d卷积,调整维度;

22、所述延展成1维向量的操作,是将调整维度后的音频特征重塑为一个一维向量;

23、所述压缩后的音视频特征进行拼接操作,是将上述得到的两个音视频一维特征拼接成一个新的音视频融合一维特征向量;

24、所述拼接后的音视频特征利用全连接层重塑维度操作,是利用两个全连接层将音视频融合一维特征向量先利用第一个全连接层压缩,其中压缩因子r=16,之后利用第二个全连接层将其还原为输入音频特征时本文档来自技高网...

【技术保护点】

1.一种联合语音增强模型的搭建方法,其特征在于,包括以下过程:

2.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于,所述步骤2中预处理的具体过程为:

3.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述视觉特征处理模块由修改后的Resnet18残差网络和卷积块注意力模块CBAM组成;

4.如权利要求3所述的一种联合语音增强模型的搭建方法,其特征在于:所述音频特征处理模块由3个CNN卷积块组成;每个卷积块包括2D卷积层、批量归一化BN和Relu激活函数;所述2D卷积层卷积核大小为55,步长为1;所述CNN卷积块的输出作为网络提取的初步音频特征,其用作双路SE视听特征融合模块的另一部分输入。

5.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述双路SE视听特征融合模块,基于挤压激励模块改进,包括一个2D卷积层、双路SE视听特征融合结构、批量归一化BN和Relu激活函数;

6.如权利要求5所述的一种联合语音增强模型的搭建方法,其特征在于:所述双路SE视听特征融合模块在联合语音增强模型结构中将重复多次,并且模块与模块之间将使用残差思想连接,公式如下:

7.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述网络输出模块由双向LSTM网络结构和三个全连接层构成;

8.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述步骤4中对构建的联合语音增强模型进行训练与测试评估,在训练过程中使用复数域理想比值掩码CRM作为音频的训练目标,使用均方误差MSE损失计算真实音频掩码和预测音频掩码的差异,CRM的计算公式如下所示:

9.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述步骤2中,对混合语音做短时傅里叶变换得到语音的语谱图,音频采样率为16kHz,音频片段长度为3s,STFT帧长为512个采样点,帧移为160个采样点,采用汉宁窗。

10.一种联合语音增强方法,其特征在于,包括以下过程:

...

【技术特征摘要】

1.一种联合语音增强模型的搭建方法,其特征在于,包括以下过程:

2.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于,所述步骤2中预处理的具体过程为:

3.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述视觉特征处理模块由修改后的resnet18残差网络和卷积块注意力模块cbam组成;

4.如权利要求3所述的一种联合语音增强模型的搭建方法,其特征在于:所述音频特征处理模块由3个cnn卷积块组成;每个卷积块包括2d卷积层、批量归一化bn和relu激活函数;所述2d卷积层卷积核大小为55,步长为1;所述cnn卷积块的输出作为网络提取的初步音频特征,其用作双路se视听特征融合模块的另一部分输入。

5.如权利要求1所述的一种联合语音增强模型的搭建方法,其特征在于:所述双路se视听特征融合模块,基于挤压激励模块改进,包括一个2d卷积层、双路se视听特征融合结构、批量归一化bn和relu激活函数;

6.如权利要...

【专利技术属性】
技术研发人员:付民肖涵予于靖雯夏多舜孙梦楠郑冰
申请(专利权)人:中国海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1