【技术实现步骤摘要】
一种单通道语音增强方法
[0001]本专利技术涉及一种单通道的语音增强方法,是采用多任务联合优化的方式,将人耳感知特性和基于自注意力机制的深度神经网络运用到语音增强任务中。
技术介绍
[0002]语音增强包含语音降噪、回声消除、混响抑制、自动增益控制等功能,最早应用于全双工语音通信、视频会议,现在也常常应用于车载智能终端和智能音箱设备中。单通道语音降噪技术是仅依靠单麦克风录音生成的语音信号,与基于波束形成的降噪技术(即通过麦克风阵列的适当配置进行空间滤波)相比,单通道语音降噪可以应用于更宽泛的声学场景。
[0003]针对语音增强任务,传统的信号处理方法通过一系列条件约束求得了最优解,而且通常是将语音增强的几个子功能分开优化,具有一定的局限性。近些年,随着深度学习方法在语音增强方面的发展,出现了越来越多的基于深度神经网络的端到端的方法。相对于原有的信号处理方法,它能够更好提升语音增强的性能。常见的编译
‑
解码(Encoder
‑
Decoder)模型,可以将输入和目标输出简化为基于短时傅立叶变换的信号频谱特征(频域特性),甚至可以将模型的输入和输出可以直接用音频信号(时域特性)表示,但是这类方法也存在着一些问题,比如计算量大,训练数据依赖性大,推广性不足等问题,这些缺点对于算法的最终落地非常不利。和端到端的方法相比,融合传统信号处理和深度学习的方法,在计算性能和计算资源方面,都相对折衷,并且对训练数据依赖也会更小,推广性更强。
技术实现思路
[0004]本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种单通道的语音增强方法,其特征在于,利用人耳感知特征作为自注意网络模型的输入,网络模型通过预测子带掩膜和音调强度达到去除回响、噪声、混响的功能,最后利用网络模型预测的有声、回声信息做自动增益控制。2.如权利要求1所述的一种单通道的语音增强方法,其特征在于:在包含背景噪声的房间中,仅考虑单个麦克风单个扬声器的情况,麦克风处信号表示为如下公式:d(n)=x(n)
★
h
x
+v(n)
★
h
v
+f(n)
★
h
f
其中x(n)为近端干净的语音信号,h
x
为近端声源处的房间脉冲响应;v(n)为噪声信号,h
v
为噪声声源处的房间脉冲响应;f(n)为远端的回声信号,h
f
为回声声源处的房间脉冲响应;声学模型需要覆盖混响抑制功能,目标语音保留了完整的房间早期反射脉冲信号(0~20ms),针对房间晚期反射脉冲信号(20~200ms)做了指数衰减;其中,x(n)语音信号由两个分量构成,分别是局部的周期性分量和随机分量;周期性分量的特征提取,采用了频谱包络以及音调特性来描述;模型的工作重点在于预估两个理想滤波器,分别是子带频谱掩膜和音调强度掩膜;子带频谱掩膜g
b
(l)的表达公式如下:其中,b表示频率子带序列,l表示短时帧序列,X表示目标语音子带幅度,Y表示观测语音子带幅度;另外,音调强度掩膜r的表示如下:音子带幅度;另外,音调强度掩膜r的表示如下:其中,q
x
为目标语音的音调相干性,q
y
为观测语音的音调相干性;另外,为观测语音的周期信号分量的音调相干性,其近似表达如下:其中,为衰减系数;模型训练时的输入信号和目标信号的模拟过程为:通过从干净语音数据集、噪声数据集、回声数据集随机抽取样本,再从房间脉冲信号集中随机抽取相同房间不同位置的脉冲信号,对语音、噪声、回声做卷积操作,得到接近实际环境的语音信号,利用作用于干净语音的脉冲信号做了早期混响限制的脉冲信号对干净信号做一次卷积操作得到目标信号。3.如权利要求2所述的一种单通道的语音增强方法,其特征在于:为了提升模型性能以及完成自动增益控制的功能,引入有声状态检测和回声状态检测两个功能;有声状态标签是根据短时能量阈值对目标语音信号生成,标签包含0和1,其中0表示无语音信号,1表示有语音信号;回声状态标签,同样也是根据短时能量阈值来生成,针对的数据准备中的回声信号;目标输出的依赖关系如下:
有声状态的标签通过对目标信号做基于短时能量阈值的得到。回声状态的标签通过对回声信号做基于短时能量阈值的得到。理想的频带掩膜和音调强度掩膜是通过输入信号和目标信号得到。具体见公式子带频谱掩膜g
b
(l)和,音调强度掩...
【专利技术属性】
技术研发人员:黄乐凯,何昕,王啸,
申请(专利权)人:上海声瀚信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。