一种端到端的骨气导语音联合增强方法技术

技术编号:28424933 阅读:34 留言:0更新日期:2021-05-11 18:33
本发明专利技术公开了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI‑SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。

【技术实现步骤摘要】
一种端到端的骨气导语音联合增强方法
本专利技术属于电子信息
,具体涉及一种语音联合增强方法。
技术介绍
语音增强旨在改善带噪语音的质量和可懂度,被广泛应用于各类语音系统的前端。近年来,由于深度学习的兴起,基于深度学习的语音增强日益受到关注,包括谱映射方法,时频掩膜方法和近一两年的端到端的时域增强方法。然而目前这些基于深度学习的语音增强方法均只使用了气导语音。骨导麦克风通过拾取头骨等人体部位的振动信号来获得音频信号。与传统的气导语音相比,骨传导语音不会拾取环境中的噪声,因而可以从声源处屏蔽噪声,实现低信噪比下的语音通信。然而,骨导语音自身也存在许多缺点。首先,由于人体组织的低通性,骨传导语音的高频部分衰减严重,甚至缺失。通常大于800Hz的频率成分就已经十分微弱,大于2kHz的部分基本完全丢失,使得骨导语音听起来十分沉闷,可懂度降低。其次,骨导语音会引入一定的非声学干扰,说话时麦克风与皮肤的摩擦,人体运动等,进一步影响了骨导语音。最后,由于骨传导的特性,语音中的清音,摩擦音等辅音严重丢失。骨传导语音的用法可以分为两类。一类就是用骨传导麦克风直接替换到原来系统中的气导麦克风,然后对骨传导的语音进行带宽扩展,这也被称为骨导语音的盲增强。这类方法主要设计一个模型,实现从骨导语音到气导语音的映射,包括线性表示,重构滤波器,高斯混合模型和深度神经网络。然而,这类工作大多侧重于扩展骨传导语音的带宽,而忽略了骨导自身的各类噪声。另一类方法则将骨导语音作为一个辅助的信号用来提升语音增强的性能。2004年,微软研究院首先提出同时使用骨传导和气导语音进行联合语音增强。在随后的几年里,有不少类似的工作,但是这些方法都是基于传统的信号处理方法。目前为止,还没有基于端到端深度学习的骨气导语音增强的工作。
技术实现思路
为了克服现有技术的不足,本专利技术提供了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI-SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。本专利技术解决其技术问题所采用的技术方案包括以下步骤:步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;步骤2:将训练集的语音数据按固定长度切割为多个小段语音;步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:其中,<·>代表内积,SI-SNR为尺度无关的信噪比;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,如果用验证集验证时SI-SNR的值不再增大,则停止训练,得到最终端到端的神经网络模型;步骤5:模型测试;将测试集数据送入步骤4得到的最终端到端的神经网络模型,输出得到联合增强的语音信号。优选地,所述将数据集划分为训练集、验证集和测试集的方法为将数据集的70%设置为训练集,20%设置为验证集,剩下的10%设置为测试集。优选地,所述将训练集的语音数据按固定长度切割为多个小段语音分割中的固定长度为1s。优选地,所述编码器E的一维卷积的卷积核大小为20,个数为256,stride设置为8,输出通道数等于256。优选地,所述掩膜估计器M包括8个串行堆叠的卷积块。优选地,所述解码器D的一维卷积的卷积核的大小为20,卷积核个数为1。优选地,所述步骤4中对端到端的神经网络模型进行训练的最大训练次数设置为30个epoch,初始学习率设置为0.001。本专利技术的有益效果如下:本专利技术的有益效果在于同时利用带噪的气导语音和骨导语音,实现端到端的联合语音增强。相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。另外,由于带噪的气导语音和骨导语音的相位均有不足,因而传统的时频域的方法也面临相位估计的问题,而本专利技术设计的端到端的系统能有效避免相位估计问题。附图说明图1是本专利技术方法的系统框图。具体实施方式下面结合附图和实施例对本专利技术进一步说明。如图1所示,一种端到端的骨气导语音联合增强方法,包括以下步骤:步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;步骤2:将训练集的语音数据按固定长度切割为多个小段语音;步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x本文档来自技高网
...

【技术保护点】
1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:/n步骤1:在无噪声环境下同步录制气导语音x

【技术特征摘要】
1.一种端到端的骨气导语音联合增强方法,其特征在于,包括以下步骤:
步骤1:在无噪声环境下同步录制气导语音xa和骨导语音xb;给气导语音xa添加环境噪声,得到其中为带噪声的气导语音,na为环境噪声;构建数据集再将数据集划分为训练集、验证集和测试集;
步骤2:将训练集的语音数据按固定长度切割为多个小段语音;
步骤3:构建端到端的神经网络模型,所述神经网络模型包括编码器E、掩膜估计器M和解码器;
步骤3-1:所述编码器E由一维卷积构成,编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中,输出得到特征图编码器E的输入通道为2,输出通道数与编码器E的一维卷积的卷积核的数量相同;
步骤3-2:所述掩膜估计器M为一个时域卷积网络,包括多个串行堆叠的卷积块,每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积,每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作,每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作;每经过一个卷积块,1x1的卷积的扩张因子的值乘以2;
掩膜估计器M的输入为特征图z,输出为和特征图z尺寸相同的掩膜m,即m=M(z);
步骤3-3:将特征图z和掩膜估计器输出的掩膜m进行点乘,得到一个新的特征图c=z·m;
步骤3-4:所述解码器D由一维反卷积构成;将新的特征图c送入解码器D中,解码器D将新的特征图c转化为一个单通道的语音信号y=D(c);
步骤4:对端到端的神经网络模型进行训练,训练目标为最大化尺度无关的信噪比,具体表示为:






<...

【专利技术属性】
技术研发人员:王谋张晓雷王逸平
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1