一种embedding编解码器的语音增强系统及方法技术方案

技术编号：23788352 阅读：44 留言：0更新日期：2020-04-15 01:13

本发明专利技术提供了一种embedding编解码器的语音增强系统，构造了一个堆叠的神经网络模型，神经网络模型对语音语谱图进行编码，对每个时频元高维映射而形成embedding向量表示。基于上述系统，本发明专利技术还提供了一种embedding编解码器的语音增强方法。本发明专利技术从高维映射的角度对语音语谱图中的时频元进行建模，提出了一种新颖的语音增强模型结构，能够有效提升带噪语音质量和可懂度，并且对不同信噪比环境有着良好的泛化性。此外，本发明专利技术中神经网络模型可在低信噪比环境下稳定工作。

A speech enhancement system and method of embedded codec

全部详细技术资料下载

【技术实现步骤摘要】
一种embedding编解码器的语音增强系统及方法
本专利技术属于人工智能语音处理
，具体涉及一种embedding编解码器的语音增强系统及方法。
技术介绍
语音增强是语音处理中一项重要的前端技术，其在无线通话、会议录音、听觉辅助、同声传译和语音识别等系统中都有广泛的应用。语音识别系统对语音质量和可懂度要求较高，虽然目前的语音识别系统准确率已经达到了较高的水平，然而对于受噪声或混响污染的语音信号往往难以达到理想的效果。轻微的噪声干扰就可以使语音识别系统的准确率大大降低，现有的非鲁棒性自动语音识别系统还不能在噪声环境下稳定工作。使用结合注意力机制的语音增强模型来模仿人类的行为方式是一种直觉的做法。文献“ModelingAttentionandMemoryforAuditorySelectioninaCocktailPartyEnvironment”将语音语谱图的高维映射、注意力机制和长期记忆应用于语音分离。然而，该方法(unifiedAuditorySelectionframeworkwithAttentionandMemory,A本文档来自技高网...

【技术保护点】
1.一种embedding编解码器的语音增强系统，其特征在于，包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络；/n所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码，产生纯净语音的embedding阵列以及带噪语音的embedding阵列；/n所述长期记忆模块由纯净语音的embedding阵列产生，用于从带噪语音embedding阵列中提取语音特征；/n所述注意力模块用于利用含有纯净语音特征的长期记忆从带...

【技术特征摘要】
1.一种embedding编解码器的语音增强系统，其特征在于，包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络；
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码，产生纯净语音的embedding阵列以及带噪语音的embedding阵列；
所述长期记忆模块由纯净语音的embedding阵列产生，用于从带噪语音embedding阵列中提取语音特征；
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征，形成新的embedding阵列；
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。

2.根据权利要求1所述的embedding编解码器的语音增强系统，其特征在于，所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络，且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中，F表示频率,T表示时间,E表示embedding向量的尺寸。

3.根据权利要求1所述的embedding编解码器的语音增强系统，其特征在于，所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成，其卷积核大小为3×3，其输入输出通道数分别为40和1。

4.一种embedding编解码器的语音增强方法，其特征在于，包括如下步骤：
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理，得到纯净语音以及带噪语音的语谱图；
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码，产生纯净语音的embedding阵列以及带噪语音的embedding阵列，...

【专利技术属性】
技术研发人员：蓝天，叶文政，刘峤，吴祖峰，钱宇欣，吕忆蓝，李森，彭川，李萌，惠国强，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人