【技术实现步骤摘要】
一种采用核化听觉模型的单通道声源分离方法
[0001]本专利技术属于信号处理领域,具体涉及一种采用核化听觉模型的单通道声源分离方法。
技术介绍
[0002]在实际场景中,目标语音信号通常伴随着环境噪声、背景音乐、干扰话音等因素的影响。这些干扰不仅降低了目标信号的听感质量和语音可懂度,也严重影响了后续相关语音应用(例如自动语音识别)的效果。
[0003]为了应对这个问题,声源分离和语音增强逐渐成为提高系统鲁棒性的重要环节。单通道声源分离主要面对背景为话音、音乐、噪声等通用音频干扰时,如何从单一混合通道信号中提取出有效目标语音信号。
[0004]传统上,独立成分分析(Independent Component Analysis,ICA)、非负矩阵分解(Nonnegative Matrix Factorization,NMF)被广泛应用于声源分离。它们或者通过假定目标信号与干扰信号之间统计独立,达到分离源信号的目的(如ICA);或者利用NMF事先学习到待分离源的先验字典,用于指导后续分离。对于ICA,当目标信号和干扰信号的统计独立假设不强时,分离效果通常很差;对于NMF,当待分离的源之间高度相似时(例如同类音混叠),NMF学到的先验字典通常存在混叠,导致无法完成分离目标。
[0005]随着深度学习技术的发展,各种基于深度神经网络(Deep Neural Network,DNN)的有监督、无监督方法被成功应用于单通道声源分离。这些方法基于编码器
‑
解码器结构,利用DNN估计一个隐藏空
【技术保护点】
【技术特征摘要】
1.一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。2.根据权利要求1所述的采用核化听觉模型的单通道声源分离方法,其特征在于,所述编码器包括:模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器,且顶部滤波器被调整的耳蜗增益函数加权;则编码器的频率函数W(f)的表达式为:W(f)=W
tail
(f)+w
lin
·
W
tip
(f)其中,W
tail
(f)和W
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数,w
lin
是顶部滤波器相对于尾部滤波的增益;该增益和基底膜的I/O增益函数相关;I/O增益函数w
dB
可以表示为:A=
‑
0.0894
·
G
max
+10.89B=1.1789
·
G
max
‑
11.789其中,C表示输入信号强度,G
max
是耳蜗放大器的最大增益,以dB为单位;顶部滤波器表示为频率f和三个参数{f
c
,p
l
,p
u
}的函数:W
tip
(f)=R
x
(f;f
c
,p
l
,p
u
)顶部滤波器的低频边和高频边的表达式为:其中,f
c
为顶部滤波器中心频率,g=|f
‑
f
c
|/f
c
是一个标准化的频率变量,描述了中心频率f
c
到掩蔽噪声边相对中心频率的距离;d
c
=[ERB
N
(1000)]/[ERB
N
(f
c
)]
·
(f
c
/1000),将到中心频率f
c
的间隔表达为相对中心频率ERB
N
的值,d
c
被标准化为在f
c
=1000Hz时等于1;p
l
和p
u
决定了顶部滤波器低频边和高频边的尖锐程度;ERB
N
(f)是在频率f处的ERB
N
值;ERB
N
表示听觉滤波器的等价直角带宽,ERB
N
(f)...
【专利技术属性】
技术研发人员:胡琦,国雁萌,颜永红,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。