一种采用核化听觉模型的单通道声源分离方法技术

技术编号:34363012 阅读:53 留言:0更新日期:2022-07-31 07:53
本发明专利技术公开了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。本发明专利技术的方法在编码器和解码器中引入了模型偏置,有效减少了模型参数,极大降低了模型复杂度。极大降低了模型复杂度。极大降低了模型复杂度。

【技术实现步骤摘要】
一种采用核化听觉模型的单通道声源分离方法


[0001]本专利技术属于信号处理领域,具体涉及一种采用核化听觉模型的单通道声源分离方法。

技术介绍

[0002]在实际场景中,目标语音信号通常伴随着环境噪声、背景音乐、干扰话音等因素的影响。这些干扰不仅降低了目标信号的听感质量和语音可懂度,也严重影响了后续相关语音应用(例如自动语音识别)的效果。
[0003]为了应对这个问题,声源分离和语音增强逐渐成为提高系统鲁棒性的重要环节。单通道声源分离主要面对背景为话音、音乐、噪声等通用音频干扰时,如何从单一混合通道信号中提取出有效目标语音信号。
[0004]传统上,独立成分分析(Independent Component Analysis,ICA)、非负矩阵分解(Nonnegative Matrix Factorization,NMF)被广泛应用于声源分离。它们或者通过假定目标信号与干扰信号之间统计独立,达到分离源信号的目的(如ICA);或者利用NMF事先学习到待分离源的先验字典,用于指导后续分离。对于ICA,当目标信号和干扰信号的统计独立假设不强时,分离效果通常很差;对于NMF,当待分离的源之间高度相似时(例如同类音混叠),NMF学到的先验字典通常存在混叠,导致无法完成分离目标。
[0005]随着深度学习技术的发展,各种基于深度神经网络(Deep Neural Network,DNN)的有监督、无监督方法被成功应用于单通道声源分离。这些方法基于编码器

解码器结构,利用DNN估计一个隐藏空间的掩蔽矩阵,实现目标信号信息的抽取;接着,利用解码器和抽取的隐藏空间特征重建出目标源信号的估计。在这些方法中,编码器通常采用固定形式(如,傅里叶变换)或者基于神经网络的端到端优化,通过全数据驱动的方式自学习得到。采用固定变换层的方式,极大影响了网络的表达能力;而基于端到端方式的优化,常需要大量训练数据,且让编码器易于过拟合到待训练的数据,影响模型泛化能力。

技术实现思路

[0006]本专利技术的目的在于克服上述技术缺陷,提出了一种采用参数化听觉前端的声源分离方法。该方法受听觉模型启发,采用核化听觉外周模型作为分离系统的编码器和解码器。为了提升模型的训练效率,采用两步级联的训练策略:第一步,通过独立优化编码器

解码器,完成从输入混合信号到隐分离空间的变换;第二步,固定优化后的编码器

解码器,独立优化声源分离器。
[0007]为实现上述目的,本专利技术提出了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:
[0008]将混合声源信号输入编码器,输出隐藏空间矩阵;
[0009]将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;
[0010]将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计
值;
[0011]将估计值输入解码器,输出分离后的目标信号波形;
[0012]其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。
[0013]作为上述方法的一种改进,所述编码器包括:模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器,且顶部滤波器被调整的耳蜗增益函数加权;则编码器的频率函数W(f)的表达式为:
[0014]W(f)=W
tail
(f)+w
lin
·
W
tip
(f)
[0015]其中,W
tail
(f)和W
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数,w
lin
是顶部滤波器相对于尾部滤波的增益;该增益和基底膜的I/O增益函数相关;
[0016]I/O增益函数w
dB
可以表示为:
[0017][0018]A=

0.0894
·
G
max
+10.89
[0019]B=1.1789
·
G
max

11.789
[0020]其中,C表示输入信号强度,G
max
是耳蜗放大器的最大增益,以dB为单位;
[0021]顶部滤波器表示为频率f和三个参数{f
c
,p
l
,p
u
}的函数:
[0022]W
tip
(f)=R
x
(f;f
c
,p
l
,p
u
)
[0023]顶部滤波器的低频边和高频边的表达式为:
[0024][0025]其中,f
c
为顶部滤波器中心频率,g=|f

f
c
|/f
c
是一个标准化的频率变量,描述了中心频率f
c
到掩蔽噪声边相对中心频率的距离;
[0026]d
c
=[ERB
N
(1000)]/[ERB
N
(f
c
)]·
(f
c
/1000),将到中心频率f
c
的间隔表达为相对中心频率ERBN的值,d
c
被标准化为在f
c
=1000Hz时等于1;p
l
和p
u
决定了顶部滤波器低频边和高频边的尖锐程度;ERB
N
(f)是在频率f处的ERB
N
值;ERB
N
表示听觉滤波器的等价直角带宽,ERB
N
(f)=6.23
·
f2+93.39
·
f+28.52;
[0027]尾部滤波器表示为频率f和三个参数{f
c
/f
rat
,t
l
,t
u
}的函数:
[0028]W
tail
(f)=R
x
(f;f
c
/f
rat
,t
l
,t
u
)
[0029][0030]其中,t
l
和t
u
决定了尾部滤波器低频边和高频边的尖锐度;顶部滤波器的中心频率可以根据信号的强度相对尾部滤波器的中心频率进行调整,f
rat
表示这两个滤波器的中心频率之比;
[0031]{f
rat
,p
l
,p
u
,G
max
}是P
rxp
的线性函数,则它们可以表示为如下形式:
[0032][0033]P
l
...

【技术保护点】

【技术特征摘要】
1.一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。2.根据权利要求1所述的采用核化听觉模型的单通道声源分离方法,其特征在于,所述编码器包括:模拟耳蜗被动机制的尾部滤波器和模拟耳蜗主动机制的顶部滤波器,且顶部滤波器被调整的耳蜗增益函数加权;则编码器的频率函数W(f)的表达式为:W(f)=W
tail
(f)+w
lin
·
W
tip
(f)其中,W
tail
(f)和W
tip
(f)分别是尾部滤波器和顶部滤波器的频率函数,w
lin
是顶部滤波器相对于尾部滤波的增益;该增益和基底膜的I/O增益函数相关;I/O增益函数w
dB
可以表示为:A=

0.0894
·
G
max
+10.89B=1.1789
·
G
max

11.789其中,C表示输入信号强度,G
max
是耳蜗放大器的最大增益,以dB为单位;顶部滤波器表示为频率f和三个参数{f
c
,p
l
,p
u
}的函数:W
tip
(f)=R
x
(f;f
c
,p
l
,p
u
)顶部滤波器的低频边和高频边的表达式为:其中,f
c
为顶部滤波器中心频率,g=|f

f
c
|/f
c
是一个标准化的频率变量,描述了中心频率f
c
到掩蔽噪声边相对中心频率的距离;d
c
=[ERB
N
(1000)]/[ERB
N
(f
c
)]
·
(f
c
/1000),将到中心频率f
c
的间隔表达为相对中心频率ERB
N
的值,d
c
被标准化为在f
c
=1000Hz时等于1;p
l
和p
u
决定了顶部滤波器低频边和高频边的尖锐程度;ERB
N
(f)是在频率f处的ERB
N
值;ERB
N
表示听觉滤波器的等价直角带宽,ERB
N
(f)...

【专利技术属性】
技术研发人员:胡琦国雁萌颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1