当前位置: 首页 > 专利查询>之江实验室专利>正文

一种利用多源辅助信息的通用语音增强方法和装置制造方法及图纸

技术编号:34788102 阅读:17 留言:0更新日期:2022-09-03 19:50
本发明专利技术公开了一种利用多源辅助信息的通用语音增强方法和装置,包括以下步骤:步骤S1:构建训练数据集;步骤S2:利用所述训练数据集对模型的网络参数进行学习,构建语音增强模型;步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;步骤S4:获取语音增强模型的输入;步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。本发明专利技术多类声源辅助声源信息提取辅助声源信号表征;对待增强的原始音频信息提取原始信号表征;将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强。入语音增强模型进行语音增强。入语音增强模型进行语音增强。

【技术实现步骤摘要】
一种利用多源辅助信息的通用语音增强方法和装置


[0001]本专利技术涉及一种语音处理
,尤其涉及一种利用多源辅助信息的通用语音增强方法和装置。

技术介绍

[0002]话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法以非监督学习算法为主,近年来随着深度学习方法的进步,以带噪特征为输入、干净特征为目标的有监督学习算法给语音增强算法领域带来了长足的进步。当前,主流的基于深度学习算法的语音增强方法首先对带噪信号提取频谱特征,再基于频谱特征估计理想二值掩码、理想比率掩码等掩码信息,进而对带噪频谱特征进行一定的掩蔽后,再通过逆短时傅里叶变换重建干净语音。此类方法的问题在于,提取频谱特征所需要进行的短时傅里叶变换需要固定窗长的信号,这一定程度上影响了算法的实时性,且人工设计的频谱特征并不一定完美适用于语音增强任务。此外,在现实应用中,通常可获得较丰富的实用场景中的不同声源的先验信息,如设备使用者的历史音频、长期共存的环境干扰说话人的历史音频、环境噪声的历史数据等等。此前的语音增强算法较少对此类信息的应用,有较少量工作开始发掘利用主要目标说话人的历史信息进行特定人的个性语音增强,但对可得的多类声源辅助信息还是利用不足。
[0003]为此,我们提出一种利用多源辅助信息的通用语音增强方法和装置以此解决上述技术问题。

技术实现思路

[0004]本专利技术为了解决上述技术问题,提供一种利用多源辅助信息的通用语音增强方法和装置。
[0005]本专利技术采用的技术方案如下:一种利用多源辅助信息的通用语音增强方法,包括以下步骤:步骤S1:构建训练数据集;步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。
[0006]进一步地,所述步骤S1具体包括以下子步骤:步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;步骤S13:在所述噪声数据集中随机抽取噪声音频;步骤S14:在所述场所混响数据集中随机选定冲激响应;步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频;步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。
[0007]进一步地,所述步骤S2具体包括以下子步骤:步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数;步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
[0008]进一步地,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。
[0009]进一步地,所述步骤S4具体包括以下子步骤:步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
[0010]进一步地,所述步骤S5具体包括以下子步骤:步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得
到目标组辅助声源信号表征和干扰组辅助声源信号表征;步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码,其中,所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征,所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征;步骤S53:将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合,得到融合掩码;步骤S54:将所述原始信号表征利用所述融合掩码得到增强的表征;步骤S55:利用所述解码器模块将所述增强的表征转换为增强语音信号。
[0011]进一步地,所述步骤S52具体包括以下子步骤:步骤S521:所述注意力模型由若干个相同的Conformer模块堆叠而成,所述Conformer模块由第一全连接层FFN、卷积层Conv、第一多头交叉注意力层MHCA、第二多头交叉注意力层MHCA、特征维线性调制层FiLM、第二全连接层FFN、层规整层LayerNorm依次连接组成;步骤S522:所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述Conformer模块中的所述第一全连接层FFN与所述卷积层Conv,得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征;步骤S523:将所述原始信号高级表征当作值,所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层MHCA,分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量;步骤S524:所述特征维线性调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用多源辅助信息的通用语音增强方法,其特征在于,包括以下步骤:步骤S1:构建训练数据集;步骤S2:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,并利用所述训练数据集对所述语音增强模型的网络参数进行学习;步骤S3:通过预采集或者现场采集的方式构建声源信息数据库;步骤S4:获取语音增强模型的输入,包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号;步骤S5:将所述含噪原始信号作为所述语音增强模型的主输入,所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强,得到增强语音信号。2.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S1具体包括以下子步骤:步骤S11:采集一个基础数据集,所述基础数据集由三部分组成:干净人声数据集、噪声数据集、场所混响数据集;步骤S12:在所述干净人声数据集中随机选定某一说话人作为目标说话人,在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料;在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人,在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料;步骤S13:在所述噪声数据集中随机抽取噪声音频;步骤S14:在所述场所混响数据集中随机选定冲激响应;步骤S15:将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频:步骤S16:将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存,得到训练数据集。3.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S2具体包括以下子步骤:步骤S21:根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型,从所述训练数据集中抽取四元组数据,包括目标语料,仿真嘈杂音频,目标辅助信息语料和干扰辅助信息语料;步骤S22:将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型,得到增强语音信号,利用所述目标语料与所述增强语音信号,计算频谱损失函数和幅度损失函数;步骤S23:根据所述频谱损失函数和所述幅度损失函数构建总损失函数:步骤S24:根据所述总损失函数,利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新;步骤S25:重复步骤S21至步骤S24,直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%,则停止所述语音增强模型更新迭代,得到所述语音增强模型的网络参数。
4.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据;所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录,得到记录结果,所述记录结果即为对应用户的辅助信息。5.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S4具体包括以下子步骤:步骤S41:通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号;步骤S42:根据实际需求,使用者人工选定目标组声源和干扰组声源,从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。6.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法,其特征在于,所述步骤S5具体包括以下子步骤:步骤S51:将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征;将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块,分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征;步骤S52:将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对,得到目标组辅助声源信号表征...

【专利技术属性】
技术研发人员:李劲松张镇川周天舒田雨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1