一种单通道语音增强方法技术

技术编号:35098022 阅读:24 留言:0更新日期:2022-10-01 17:02
本发明专利技术公开一种单通道的语音增强方法,利用人耳感知特征作为自注意网络模型的输入,网络模型通过预测子带掩膜和音调强度达到去除回响、噪声、混响的功能,最后利用网络模型预测的有声、回声信息做自动增益控制。申请方案采用了子带幅度和音调相关的特征作为输入,目标是同时逼近理想的子带幅度掩膜和音调强度掩膜,优化这两个特征是考虑到人耳对于频谱包络和语音周期性的感知非常敏感。和语音周期性的感知非常敏感。和语音周期性的感知非常敏感。

【技术实现步骤摘要】
一种单通道语音增强方法


[0001]本专利技术涉及一种单通道的语音增强方法,是采用多任务联合优化的方式,将人耳感知特性和基于自注意力机制的深度神经网络运用到语音增强任务中。

技术介绍

[0002]语音增强包含语音降噪、回声消除、混响抑制、自动增益控制等功能,最早应用于全双工语音通信、视频会议,现在也常常应用于车载智能终端和智能音箱设备中。单通道语音降噪技术是仅依靠单麦克风录音生成的语音信号,与基于波束形成的降噪技术(即通过麦克风阵列的适当配置进行空间滤波)相比,单通道语音降噪可以应用于更宽泛的声学场景。
[0003]针对语音增强任务,传统的信号处理方法通过一系列条件约束求得了最优解,而且通常是将语音增强的几个子功能分开优化,具有一定的局限性。近些年,随着深度学习方法在语音增强方面的发展,出现了越来越多的基于深度神经网络的端到端的方法。相对于原有的信号处理方法,它能够更好提升语音增强的性能。常见的编译

解码(Encoder

Decoder)模型,可以将输入和目标输出简化为基于短时傅立叶变换的信号频谱特征(频域特性),甚至可以将模型的输入和输出可以直接用音频信号(时域特性)表示,但是这类方法也存在着一些问题,比如计算量大,训练数据依赖性大,推广性不足等问题,这些缺点对于算法的最终落地非常不利。和端到端的方法相比,融合传统信号处理和深度学习的方法,在计算性能和计算资源方面,都相对折衷,并且对训练数据依赖也会更小,推广性更强。

技术实现思路

[0004]本专利技术要解决的技术问题是在计算资源有限的情况下,保证语音增强算法能适应复杂多变的实际场景。
[0005]为了解决上诉技术问题,本专利技术采用如下技术方案:
[0006]利用人耳感知特征作为自注意网络模型的输入,网络模型通过预测子带掩膜和音调强度达到去除回响、噪声、混响的功能,最后利用网络模型预测的有声、回声信息做自动增益控制。
[0007]上述的一种单通道的语音增强方法,其中:
[0008]在包含背景噪声的房间中,仅考虑单个麦克风单个扬声器的情况,麦克风处信号表示为如下公式:
[0009]d(n)=x(n)

h
x
+v(n)*h
v
+f(n)

h
f
[0010]其中x(n)为近端干净的语音信号,h
x
为近端声源处的房间脉冲响应;v(n)为噪声信号,h
v
为噪声声源处的房间脉冲响应;f(n)为远端的回声信号,h
f
为回声声源处的房间脉冲响应;声学模型需要覆盖混响抑制功能,目标语音保留了完整的房间早期反射脉冲信号(0~20ms),针对房间晚期反射脉冲信号(20~200ms)做了指数衰减;
[0011]其中,x(n)语音信号由两个分量构成,分别是局部的周期性分量和随机分量;周期
性分量的特征提取,采用了频谱包络以及音调特性来描述;模型的工作重点在于预估两个理想滤波器,分别是子带频谱掩膜和音调强度掩膜;子带频谱掩膜g
b
(l)的表达公式如下:
[0012][0013]其中,b表示频率子带序列,l表示短时帧序列,X表示目标语音子带幅度,Y表示观测语音子带幅度;另外,音调强度掩膜r的表示如下:
[0014][0015][0016]其中,q
x
为目标语音的音调相干性,q
y
为观测语音的音调相干性;另外,为观测语音的周期信号分量的音调相干性,其近似表达如下:
[0017][0018]其中,为衰减系数;
[0019]模型训练时的输入信号和目标信号的模拟过程为:
[0020]通过从干净语音数据集、噪声数据集、回声数据集随机抽取样本,再从房间脉冲信号集中随机抽取相同房间不同位置的脉冲信号,对语音、噪声、回声做卷积操作,得到接近实际环境的语音信号,利用作用于干净语音的脉冲信号做了早期混响限制的脉冲信号对干净信号做一次卷积操作得到目标信号。
[0021]上述的一种单通道的语音增强方法,其中:
[0022]为了提升模型性能以及完成自动增益控制的功能,引入有声状态检测和回声状态检测两个功能;有声状态标签是根据短时能量阈值对目标语音信号生成,标签包含0和1,其中0表示无语音信号,1表示有语音信号;回声状态标签,同样也是根据短时能量阈值来生成,针对的数据准备中的回声信号;
[0023]目标输出的依赖关系如下:
[0024]有声状态的标签通过对目标信号做基于短时能量阈值的得到。回声状态的标签通过对回声信号做基于短时能量阈值的得到。理想的频带掩膜和音调强度掩膜是通过输入信号和目标信号得到。具体见公式子带频谱掩膜g
b
(l)和,音调强度掩膜r。
[0025]上述的一种单通道的语音增强方法,其中:
[0026]声学模型是多层基于自注意力机制(self

attention)的Conformer模型组成,每个Conformer单元包含卷积模块(Convolution Module)、多头自注意力模块(Multi

Head Self Attention Module)、前馈模块(Feed Forward Module),其中,卷积模块是用以抽象局部窗长内的信息,自注意力模块是一种模拟人类视觉所特有的大脑信号处理机制,来自动学习和计算输入数据对输出数据的贡献大小,输入特征通过一个仿射变化得到转换后的新特征,接着通过有多层Confomer结构组成的Confomer blocks得到最终高级特征表达。
[0027]上述的一种单通道的语音增强方法,其中:
[0028]实时语音识别系统采用分块(Chunk

wise)的在线注意力机制,即通过限制自注意力机制范围对局部依赖信息进行建模,语音增强模型的输入信号包含观测信号和参考信号两部分;特征提取包含两个步骤:第一步,利用参考信号的相关特性,先进行前期线形自适应滤波预处理,常见的自适应滤波器算法有基于归一化最小均方算法(NLMS)、以及加权递推最小二乘算法(wRLS);第二步,对经过线形回声去除的残差信号以及参考信号,分别做短时分帧(帧长20ms,帧移10ms),傅立叶变换(FFT),通过等效矩形带宽滤波(equivalent rectangular bandwidth,ERB)划分子带,最终提取每个频段的能量;另外,还需要对残差信号提取音调相关特征;
[0029]模型训练的损失函数如下:
[0030][0031][0032][0033][0034][0035]其中γ为0.5,C4为10,w
vad
、w
echo
分别表示引入近端有声检测和远端回声检测的损失权重,分别表示当前帧真实的近端有声标签和远端回声标签。V
b
、E
b
分别表示当前帧真实的近端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单通道的语音增强方法,其特征在于,利用人耳感知特征作为自注意网络模型的输入,网络模型通过预测子带掩膜和音调强度达到去除回响、噪声、混响的功能,最后利用网络模型预测的有声、回声信息做自动增益控制。2.如权利要求1所述的一种单通道的语音增强方法,其特征在于:在包含背景噪声的房间中,仅考虑单个麦克风单个扬声器的情况,麦克风处信号表示为如下公式:d(n)=x(n)

h
x
+v(n)

h
v
+f(n)

h
f
其中x(n)为近端干净的语音信号,h
x
为近端声源处的房间脉冲响应;v(n)为噪声信号,h
v
为噪声声源处的房间脉冲响应;f(n)为远端的回声信号,h
f
为回声声源处的房间脉冲响应;声学模型需要覆盖混响抑制功能,目标语音保留了完整的房间早期反射脉冲信号(0~20ms),针对房间晚期反射脉冲信号(20~200ms)做了指数衰减;其中,x(n)语音信号由两个分量构成,分别是局部的周期性分量和随机分量;周期性分量的特征提取,采用了频谱包络以及音调特性来描述;模型的工作重点在于预估两个理想滤波器,分别是子带频谱掩膜和音调强度掩膜;子带频谱掩膜g
b
(l)的表达公式如下:其中,b表示频率子带序列,l表示短时帧序列,X表示目标语音子带幅度,Y表示观测语音子带幅度;另外,音调强度掩膜r的表示如下:音子带幅度;另外,音调强度掩膜r的表示如下:其中,q
x
为目标语音的音调相干性,q
y
为观测语音的音调相干性;另外,为观测语音的周期信号分量的音调相干性,其近似表达如下:其中,为衰减系数;模型训练时的输入信号和目标信号的模拟过程为:通过从干净语音数据集、噪声数据集、回声数据集随机抽取样本,再从房间脉冲信号集中随机抽取相同房间不同位置的脉冲信号,对语音、噪声、回声做卷积操作,得到接近实际环境的语音信号,利用作用于干净语音的脉冲信号做了早期混响限制的脉冲信号对干净信号做一次卷积操作得到目标信号。3.如权利要求2所述的一种单通道的语音增强方法,其特征在于:为了提升模型性能以及完成自动增益控制的功能,引入有声状态检测和回声状态检测两个功能;有声状态标签是根据短时能量阈值对目标语音信号生成,标签包含0和1,其中0表示无语音信号,1表示有语音信号;回声状态标签,同样也是根据短时能量阈值来生成,针对的数据准备中的回声信号;目标输出的依赖关系如下:
有声状态的标签通过对目标信号做基于短时能量阈值的得到。回声状态的标签通过对回声信号做基于短时能量阈值的得到。理想的频带掩膜和音调强度掩膜是通过输入信号和目标信号得到。具体见公式子带频谱掩膜g
b
(l)和,音调强度掩...

【专利技术属性】
技术研发人员:黄乐凯何昕王啸
申请(专利权)人:上海声瀚信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1