面向麦克风阵列的通道注意力加权的语音增强方法技术

技术编号:26893015 阅读:31 留言:0更新日期:2020-12-29 16:14
本发明专利技术公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,方法包括:从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;构建多通道语音增强模型;将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征,对多通道语音增强模型进行预训练;将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。本发明专利技术采用U‑NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。

【技术实现步骤摘要】
面向麦克风阵列的通道注意力加权的语音增强方法
本专利技术涉及多通道语音增强
,具体涉及一种面向麦克风阵列的通道注意力加权的语音增强方法。
技术介绍
语音是现代通信的重要载体,语音增强的目的是利用信号处理的技术改善受到噪声污染的语音可懂度与质量,其在语音信号处理中有着重要的应用,因而近些年,语音增强技术也受到了广泛的关注。现实应用中录制的语音信号总是会受到各种干扰与污染,如:各种类型的噪声、混响、回声等。这些干扰会显著降低语音的可懂度,从而影响人类的听感以及语音识别系统的准确性。因此,有效的语音增强技术对于语音信号处理的发展是至关重要的。单通道语音增强算法实现较为简单,但也存在一定缺点,例如,基于谱减法的语音增强方法会带来音乐噪声,且在语音质量和可懂度之间的矛盾在目前还没有得到较好的解决。而麦克风阵列技术的应用不仅可以得到语音的时域和频域信息,还可以得到语音信号的空域信息,合理利用它们可以在提高输出语音信号的信噪比并减少语音信号的失真。传统的多通道语音增强方法包括波束形成,其中包含固定波束形成和自适应波束形成。固定波束形成算本文档来自技高网...

【技术保护点】
1.一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,包括以下步骤:/nS1:声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;/nS2:构建多通道语音增强模型:首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,在基线语音增强模型的基础上结合多通道注意力机制,通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型;/nS3:多通道语音增强模型预训练:计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱...

【技术特征摘要】
1.一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,包括以下步骤:
S1:声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;
S2:构建多通道语音增强模型:首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,在基线语音增强模型的基础上结合多通道注意力机制,通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型;
S3:多通道语音增强模型预训练:计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱,然后结合每路带噪语音的短时傅里叶变换频谱计算纯净语音的压缩复值理想比率掩模并通过多通道语音增强模型生成每路带噪语音的估计的压缩复值理想比率掩模其中,j为麦克风标号;通过联合优化估计每路麦克风的和的均方误差MSE以及加权信号/失真比损失Weighted-SDRLoss来训练多通道语音增强模型;
S4:采用多通道语音增强模型进行麦克风阵语音增强:将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。


2.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中基线语音增强模型的具体结构为:基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络,每层编码器以及每层解码器之间包含一层通道注意力层,基线语音增强模型输入信号,即麦克风阵中每组语音时域信号,其维度为F×T×2C,其中F为频率维度,T为时间维度,C为通道维度,即麦克风总个数。


3.根据权利要求2所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述每层编码器包含依次连接的卷积层、批归一化层和非线性层,编码器通过下采样扩展通道维度,所述每层编码器输出估计的特征;所述每层解码器包含依次连接的卷积层、批归一化层和非线性层,解码器通过上采样收缩通道维度,生成与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模编码器与解码器之间具有相同的卷积层数,编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。


4.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中构建多通道语音增强模型的具体过程为:
S21、将多通道注意力机制引入基线语音增强模型中:将输入的短时傅里叶变换频谱在频率维度划分为m个子空间,随机初始化若干组1×1卷积核,并与输入的带噪语音x∈RF×T×2C做卷积...

【专利技术属性】
技术研发人员:唐闺臣孙世若梁瑞宇王青云谢跃包永强邹采荣
申请(专利权)人:南京工程学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1