基于频域卷积传递函数的多通道非负矩阵分解方法及系统技术方案

技术编号:32796045 阅读:23 留言:0更新日期:2022-03-23 19:58
本发明专利技术属于盲源分离技术领域,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统,该方法包括:对传声器阵列每一个通道采集的时域观测信号进行分帧并做短时傅里叶变换,得到时频域的观测信号;基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;将时频域的分离信号进行短时傅里叶逆变换、合成得到时域的分离信号。号。号。

【技术实现步骤摘要】
基于频域卷积传递函数的多通道非负矩阵分解方法及系统


[0001]本专利技术属于盲源分离(Blind source separation,BSS)
,具体地说,涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统。

技术介绍

[0002]盲源分离是在没有声源和声源到麦克风之间的传递函数等先验信息的情况下,仅利用麦克风的接收信号来估计各个声源信号的方法。音频盲源分离在自动语音识别、自动音乐转录和噪声环境下的目标说话人提取等领域具有重要的应用。
[0003]在生物医学信号或图像处理等领域,观测信号是时域的瞬时混合模型。但是,在音频信号处理的应用领域中,由于房间内早期反射声和后期混响的存在,观测信号符合时域的卷积混合模型,这比时域的瞬时混合模型更加难处理。有些研究工作,直接利用时域卷积模型来处理盲音频分离问题。但是这些工作的复杂度较高,且很难处理具有较长混响时间的混合信号。
[0004]目前,广泛采用的解决思路是利用短时傅里叶变换将时域的卷积混合模型转换为频域瞬时混合模型,这种转换依赖于窄带假设。需要强调的是窄带假设成立的条件是短时傅里叶变换的窗长要充分长于混响时间。大多数的多通道盲源分离方法需要一个空间模型和一个声源模型,其中空间模型来编码声源到麦克风之间的传递函数,声源模型来编码每个声源的功率谱密度。在窄带假设的前提下,可以证明空间模型是一个秩为一的空间协方差矩阵。独立成分分析(Independent component analysis,ICA)、独立向量分析(Independent vector analysis,IVA)和独立低秩矩阵分析(Independent low

rank matrix analysis,ILRMA)都是基于秩一空间模型得到的,不同的是这些方法采用了不同的声源模型。ICA假设每个频点独立地服从单位方差的超高斯分布。但在ICA中,每个频点是单独分离的,这导致了乱序问题,需要增加排序算法作为后处理来解决序列对齐问题。IVA假设每个声源的所有频点符合多维超高斯分布,这样解决了ICA存在的排序问题。但是,IVA采用的声源模型不够灵活,没有充分利用声源的功率谱特征。ILRMA假设每个时频点服从零均值的复高斯分布,并且采用一个低秩的声源模型来建模声源的功率谱,同样也避免了排序问题。ILRMA采用的声源模型比IVA的更加强大,因而更能够描述功率谱密度的丰富细节,在音乐分离任务重取得了比IVA更好的分离性能。
[0005]很多声学场景的混响时间较长,例如,有些没有做吸声处理的会议室混响时间可达到800~1000毫秒。在这种场景下,短时傅里叶变换的窗长可能小于混响时间,窄带模型不再成立,导致现有盲源分离算法性能下降。另外,当总的数据长度一定时,增长短时傅里叶变换的窗长,使得实际可用计算统计量的数据帧变短,这也降低盲源分离算法的性能。为了解决这个问题,有学者将空间协方差矩阵设置为满秩这一更为普遍的模型,它在强混响环境下取得较好的性能。满秩协方差矩阵分析(Full rank covariance matrix analysis,FCA)算法,多通道非负矩阵分解(Multichannel nonnegative matrix factorization,MNMF),快速MNMF(Fast

MNMF)都是基于满秩空间协方差矩阵模型开发的。但是,FCA和快速
MNMF都采用了无约束的满秩空间协方差矩阵模型,它们需要优化大量的参数,因而算法复杂度高且对初始值敏感。Fast

MNMF作为一种计算高效的MNMF算法,它假设每个频点所有声源的空间协方差矩阵是满秩并且可以联合对角化的。得益于联合对角化的操作,Fast

MNMF的代价函数可以利用迭代投影算法进行优化,因而获得了比Fast

MNMF更好的收敛性能。但是,多于两个非负定厄密特矩阵的精确联合对角化不存在,因而Fast

MNMF在分离多于两个声源时性能下降。

技术实现思路

[0006]为解决现有技术存在的上述缺陷,本专利技术提出了一种基于频域卷积传递函数的多通道非负矩阵分解方法,该方法能够在强混响环境下取得良好的分离性能。该方法包括:
[0007]对传声器阵列每一个通道采集的时域观测信号做短时傅里叶变换,得到时频域的观测信号;
[0008]基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
[0009]基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
[0010]利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
[0011]将时频域的分离信号进行傅里叶逆变换并合成得到时域的分离信号。
[0012]本专利技术还提供了一种基于频域卷积传递函数的多通道非负矩阵分解系统,该系统包括:
[0013]短时傅里叶变换模块,用于对传声器阵列每一个通道采集的时域观测信号进行分帧、加窗和傅里叶变换,得到时频域的观测信号;
[0014]声源方差估计模块,用于基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;
[0015]解混矩阵估计模块,用于基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;
[0016]维纳滤波模块,用于利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;
[0017]以及,短时傅里叶逆变换模块,用于将时频域的分离信号进行傅里叶逆变换、加窗和合成,得到时域的分离信号。
[0018]本专利技术与现有技术相比的有益效果是:
[0019]1、本专利技术的方法采用基于频域卷积传递函数空间模型的解混矩阵来分离信号,可以允许使用较短的短时傅里叶变换窗长。而较短的短时傅里叶变换窗长可以捕捉语音的时变特性,并增加了时频点的统计数量,从而提高分离语音的语音质量;
[0020]2、本专利技术的方法采用的基于卷积传递函数空间模型的解混矩阵对于长混响时间的混合信号是有效的,在分离具有强混响的混合信号时,能够在使用短窗长的情况下依然取得良好的分离性能;
[0021]3、采用本专利技术的方法利用非负矩阵分解进行声源谱的建模,可以利用声源的谱特征,进一步地提高估计声源功率谱密度的准确度,进一步地从而提高盲源分离的分离性能。
附图说明
[0022]图1是本专利技术的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法原理图;
[0023]图2是一段音乐信号功率谱的非负矩阵分解示意图;
[0024]图3是本专利技术的一种基于频域卷积传递函数的多通道非负矩阵分解方法的方法流程图。
具体实施方式
[0025]现结合附图和实例对本专利技术作进一步的描述。
[0026]如图1所示,展示了传声器阵列捕获声源的混合过程和盲源分离算法分解混合信号的解混过程。解混过程可以看做是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于频域卷积传递函数的多通道非负矩阵分解方法,该方法包括:对传声器阵列每一个通道采集的时域观测信号进行短时傅里叶变换,得到时频域的观测信号;基于非负矩阵分解声源模型,估计出每一个声源的功率谱密度;基于频域卷积传递函数空间模型,估计出每一个声源的每一阶解混滤波器;利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器,并对时频域的观测信号进行滤波得到时频域的分离信号;将时频域的分离信号进行短时傅里叶逆变换并合成得到时域的分离信号。2.根据权利要求1所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,该方法具体包括:步骤1)对传声器阵列的第m个通道采集的时域观测信号x
m
(j)进行短时傅里叶变换,得到时频域的观测信号x
m,ft
;其中1≤m≤M,M为传声器阵列中的传声器数量;t为时间索引;1≤t≤T,T表示样本在时频域的总帧数;f为频率索引,1≤f≤F,F为傅里叶变换点数,j为时间变量;步骤2)基于非负矩阵分解声源模型,估计出每一个声源n在每一个时频点(f,t)的功率谱密度λ
n,f,t
,1≤n≤N,其中N为声源数目,N≤M;步骤3)基于频域卷积传递函数空间模型,估计每一个频带内,每一个声源n的每一阶解混滤波器w
n,f,l
,其中0≤l≤L
n

1,L
n
为第n个声源的卷积传递函数滤波器长度;步骤4)循环迭代步骤2)和步骤3),直到达到预先设置的迭代次数,获得每一个声源n的功率谱密度和所有阶解混滤波器;步骤5)利用步骤2)获得的所有功率谱密度和步骤3)获得的所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器,并利用该维纳滤波器对观测信号向量x
ft
进行滤波得到每一个声源的时频域分离信号y
n,ft
,n=1,

,N;其中x
ft
=[x
1,ft
,

,x
M,ft
]
T
,y
n,ft
=[y
n1,ft
,

,y
nM,ft
]
T
;步骤6)任意选取一个通道序号对每一个声源的分离信号y
n,ft
中的通道对应的时频域分离信号进行短时傅里叶逆变换,然后得到第n个声源的时域分离信号其中3.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,所述步骤2)具体包括:在每一个时频点,利用基矩阵T
n
的元素t
n,fk
和激活矩阵V
n
的元素v
n,k,t
,根据下述的非负矩阵分解声源模型,计算第n个声源的时频点在每一个时频点(f,t)的功率谱密度λ
n,f,t
;其中K为预先设置好的基向量个数;并且相应的基矩阵和激活矩阵的更新规则为:
其中4.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法,其特征在于,所述步骤3)具体包括:步骤301)根据估计的第n个声源的功率谱密度λ
n,f,t
,对观测信号x
ft
的协方差矩阵进行加权求和再平均,得到加权协方差矩阵Q
nl,f
;其中为观测信号x
ft
的共轭转秩向量;步骤302)根据步骤...

【专利技术属性】
技术研发人员:王泰辉
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1