一种端到端的骨气导语音联合增强方法技术

技术编号：28424933 阅读：34 留言：0更新日期：2021-05-11 18:33

本发明专利技术公开了一种端到端的骨气导语音联合增强方法，首先同步录制气导语音和骨导语音，添加环境噪声后构造数据集；接下来构建端到端的神经网络模型，包括编码器、掩膜估计器和解码器；通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号；使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练，直到SI‑SNR的值不再增大时，停止训练，得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强，联合增强的语音质量和可懂度都有大幅的提升，同时语音识别的错误率也显著下降。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端的骨气导语音联合增强方法
本专利技术属于电子信息
，具体涉及一种语音联合增强方法。
技术介绍
语音增强旨在改善带噪语音的质量和可懂度，被广泛应用于各类语音系统的前端。近年来，由于深度学习的兴起，基于深度学习的语音增强日益受到关注，包括谱映射方法，时频掩膜方法和近一两年的端到端的时域增强方法。然而目前这些基于深度学习的语音增强方法均只使用了气导语音。骨导麦克风通过拾取头骨等人体部位的振动信号来获得音频信号。与传统的气导语音相比，骨传导语音不会拾取环境中的噪声，因而可以从声源处屏蔽噪声，实现低信噪比下的语音通信。然而，骨导语音自身也存在许多缺点。首先，由于人体组织的低通性，骨传导语音的高频部分衰减严重，甚至缺失。通常大于800Hz的频率成分就已经十分微弱，大于2kHz的部分基本完全丢失，使得骨导语音听起来十分沉闷，可懂度降低。其次，骨导语音会引入一定的非声学干扰，说话时麦克风与皮肤的摩擦，人体运动等，进一步影响了骨导语音。最后，由于骨传导的特性，语音中的清音，摩擦音等辅音严重丢失。骨传导语音的用法可以分为两类。一类就是用骨传导麦克风直接替换到原来系统中的气导麦克风，然后对骨传导的语音进行带宽扩展，这也被称为骨导语音的盲增强。这类方法主要设计一个模型，实现从骨导语音到气导语音的映射，包括线性表示，重构滤波器，高斯混合模型和深度神经网络。然而，这类工作大多侧重于扩展骨传导语音的带宽，而忽略了骨导自身的各类噪声。另一类方法则将骨导语音作为一个辅助的信号用来提升语音增强的性能。2004年，微软研究...

【技术保护点】
1.一种端到端的骨气导语音联合增强方法，其特征在于，包括以下步骤：/n步骤1：在无噪声环境下同步录制气导语音x

【技术特征摘要】
1.一种端到端的骨气导语音联合增强方法，其特征在于，包括以下步骤：
步骤1：在无噪声环境下同步录制气导语音xa和骨导语音xb；给气导语音xa添加环境噪声，得到其中为带噪声的气导语音，na为环境噪声；构建数据集再将数据集划分为训练集、验证集和测试集；
步骤2：将训练集的语音数据按固定长度切割为多个小段语音；
步骤3：构建端到端的神经网络模型，所述神经网络模型包括编码器E、掩膜估计器M和解码器；
步骤3-1：所述编码器E由一维卷积构成，编码器E的输入为经过步骤2切割的数据通过编码器E将带噪声的气导语音和骨导语音xb转化到同一个特征空间中，输出得到特征图编码器E的输入通道为2，输出通道数与编码器E的一维卷积的卷积核的数量相同；
步骤3-2：所述掩膜估计器M为一个时域卷积网络，包括多个串行堆叠的卷积块，每个卷积块包括串行排列的一个1x1的卷积和一个深度可分离卷积，每个1x1的卷积后跟随一个PReLU非线性激活函数和归一化操作，每个深度可分离卷积后跟随一个PReLU非线性激活函数和归一化操作；每经过一个卷积块，1x1的卷积的扩张因子的值乘以2；
掩膜估计器M的输入为特征图z，输出为和特征图z尺寸相同的掩膜m，即m＝M(z)；
步骤3-3：将特征图z和掩膜估计器输出的掩膜m进行点乘，得到一个新的特征图c＝z·m；
步骤3-4：所述解码器D由一维反卷积构成；将新的特征图c送入解码器D中，解码器D将新的特征图c转化为一个单通道的语音信号y＝D(c)；
步骤4：对端到端的神经网络模型进行训练，训练目标为最大化尺度无关的信噪比，具体表示为：

<...

【专利技术属性】
技术研发人员：王谋，张晓雷，王逸平，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人