一种embedding编解码器的语音增强系统及方法技术方案

技术编号:23788352 阅读:33 留言:0更新日期:2020-04-15 01:13
本发明专利技术提供了一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。基于上述系统,本发明专利技术还提供了一种embedding编解码器的语音增强方法。本发明专利技术从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明专利技术中神经网络模型可在低信噪比环境下稳定工作。

A speech enhancement system and method of embedded codec

【技术实现步骤摘要】
一种embedding编解码器的语音增强系统及方法
本专利技术属于人工智能语音处理
,具体涉及一种embedding编解码器的语音增强系统及方法。
技术介绍
语音增强是语音处理中一项重要的前端技术,其在无线通话、会议录音、听觉辅助、同声传译和语音识别等系统中都有广泛的应用。语音识别系统对语音质量和可懂度要求较高,虽然目前的语音识别系统准确率已经达到了较高的水平,然而对于受噪声或混响污染的语音信号往往难以达到理想的效果。轻微的噪声干扰就可以使语音识别系统的准确率大大降低,现有的非鲁棒性自动语音识别系统还不能在噪声环境下稳定工作。使用结合注意力机制的语音增强模型来模仿人类的行为方式是一种直觉的做法。文献“ModelingAttentionandMemoryforAuditorySelectioninaCocktailPartyEnvironment”将语音语谱图的高维映射、注意力机制和长期记忆应用于语音分离。然而,该方法(unifiedAuditorySelectionframeworkwithAttentionandMemory,ASAM)在生成掩蔽层的时频元时没有充分利用相关的embedding信息,其在语音增强任务中效果一般,embedding:语谱图中时频点在高维空间上的映射,在自然语言处理中也作为词或句子的表示。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种embedding编解码器语音增强系统及方法,从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种embedding编解码器的语音增强系统,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。进一步地,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。再进一步地,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。基于上述系统,本专利技术还提供了一种embedding编解码器的语音增强方法,包括如下步骤:S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。进一步地,所述步骤S3包括如下步骤:S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列。再进一步地,所述步骤S301中时频掩蔽的表达式如下:at,f=sigmoid(M·At,f)其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元。再进一步地,所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸。再进一步地,所述步骤S303中提取语音特征A'的表达式如下:A'=A⊙SM其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘。本专利技术的有益效果:(1)本专利技术提供一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,包括四个组件:一个基于长短期记忆(LSTM,LongShort-TermMemory)神经网络的embedding编码器、一个基于卷积神经网络(CNN,ConvolutionalNeuralNetwork)的embedding解码器网络、长期记忆模块和注意力结构。神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。纯净语音语谱图和带噪语音语谱图分别产生一个embedding向量的阵列,其中来自纯净语音的embedding阵列产生长期记忆。由长期记忆从带噪embedding阵列提取纯净语音信息,以此形成掩蔽层。该掩蔽层滤除embedding阵列中的干扰信息。最后embedding解码器将embedding矩阵还原语音语谱图。本专利技术从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本专利技术中神经网络模型可在低信噪比环境下稳定工作。(2)本专利技术提供一种embedding编解码器的语音增强方法,所述方法利用embedding解码器从embedding阵列中提取相关的embedding向量来产生语音语谱图中对应时频元的能量。由于embedding阵列中每个向量可视作对原始输入语谱图对应时频元的高维映射,而embedding阵列与其对应的语谱图一样,应在沿时间和频率方向的局部区域具有稳定性。该方法将局部相关embedd本文档来自技高网...

【技术保护点】
1.一种embedding编解码器的语音增强系统,其特征在于,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;/n所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;/n所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;/n所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;/n所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。/n

【技术特征摘要】
1.一种embedding编解码器的语音增强系统,其特征在于,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。


2.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。


3.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。


4.一种embedding编解码器的语音增强方法,其特征在于,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,...

【专利技术属性】
技术研发人员:蓝天叶文政刘峤吴祖峰钱宇欣吕忆蓝李森彭川李萌惠国强
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1