基于频域卷积传递函数的多通道非负矩阵分解方法及系统技术方案

技术编号：32796045 阅读：23 留言：0更新日期：2022-03-23 19:58

本发明专利技术属于盲源分离技术领域，具体地说，涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统，该方法包括：对传声器阵列每一个通道采集的时域观测信号进行分帧并做短时傅里叶变换，得到时频域的观测信号；基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器；利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；将时频域的分离信号进行短时傅里叶逆变换、合成得到时域的分离信号。号。号。

全部详细技术资料下载

【技术实现步骤摘要】
基于频域卷积传递函数的多通道非负矩阵分解方法及系统

[0001]本专利技术属于盲源分离(Blind source separation,BSS)
，具体地说，涉及一种基于频域卷积传递函数的多通道非负矩阵分解方法及系统。

技术介绍

[0002]盲源分离是在没有声源和声源到麦克风之间的传递函数等先验信息的情况下，仅利用麦克风的接收信号来估计各个声源信号的方法。音频盲源分离在自动语音识别、自动音乐转录和噪声环境下的目标说话人提取等领域具有重要的应用。
[0003]在生物医学信号或图像处理等领域，观测信号是时域的瞬时混合模型。但是，在音频信号处理的应用领域中，由于房间内早期反射声和后期混响的存在，观测信号符合时域的卷积混合模型，这比时域的瞬时混合模型更加难处理。有些研究工作，直接利用时域卷积模型来处理盲音频分离问题。但是这些工作的复杂度较高，且很难处理具有较长混响时间的混合信号。
[0004]目前，广泛采用的解决思路是利用短时傅里叶变换将时域的卷积混合模型转换为频域瞬时混合模型，这种转换依赖于窄带假设。需要强调的是窄带假设成立的条件是短时傅里叶变换的窗长要充分长于混响时间。大多数的多通道盲源分离方法需要一个空间模型和一个声源模型，其中空间模型来编码声源到麦克风之间的传递函数，声源模型来编码每个声源的功率谱密度。在窄带假设的前提下，可以证明空间模型是一个秩为一的空间协方差矩阵。独立成分分析(Independent component analysis,ICA)、独立向量分析(Independent vec...

【技术保护点】

【技术特征摘要】
1.一种基于频域卷积传递函数的多通道非负矩阵分解方法，该方法包括：对传声器阵列每一个通道采集的时域观测信号进行短时傅里叶变换，得到时频域的观测信号；基于非负矩阵分解声源模型，估计出每一个声源的功率谱密度；基于频域卷积传递函数空间模型，估计出每一个声源的每一阶解混滤波器；利用获得的功率谱密度和解混矩阵构造均方误差准则下的维纳滤波器，并对时频域的观测信号进行滤波得到时频域的分离信号；将时频域的分离信号进行短时傅里叶逆变换并合成得到时域的分离信号。2.根据权利要求1所述的基于频域卷积传递函数的多通道非负矩阵分解方法，其特征在于，该方法具体包括：步骤1)对传声器阵列的第m个通道采集的时域观测信号x
m
(j)进行短时傅里叶变换，得到时频域的观测信号x
m,ft
；其中1≤m≤M，M为传声器阵列中的传声器数量；t为时间索引；1≤t≤T，T表示样本在时频域的总帧数；f为频率索引，1≤f≤F，F为傅里叶变换点数，j为时间变量；步骤2)基于非负矩阵分解声源模型，估计出每一个声源n在每一个时频点(f,t)的功率谱密度λ
n,f,t
，1≤n≤N，其中N为声源数目，N≤M；步骤3)基于频域卷积传递函数空间模型，估计每一个频带内，每一个声源n的每一阶解混滤波器w
n,f,l
，其中0≤l≤L
n
‑
1，L
n
为第n个声源的卷积传递函数滤波器长度；步骤4)循环迭代步骤2)和步骤3)，直到达到预先设置的迭代次数，获得每一个声源n的功率谱密度和所有阶解混滤波器；步骤5)利用步骤2)获得的所有功率谱密度和步骤3)获得的所有声源的所有阶解混滤波器构造均方误差准则下的维纳滤波器，并利用该维纳滤波器对观测信号向量x
ft
进行滤波得到每一个声源的时频域分离信号y
n,ft
，n＝1,
…
,N；其中x
ft
＝[x
1,ft
,
…
,x
M,ft
]
T
，y
n,ft
＝[y
n1,ft
,
…
,y
nM,ft
]
T
；步骤6)任意选取一个通道序号对每一个声源的分离信号y
n,ft
中的通道对应的时频域分离信号进行短时傅里叶逆变换，然后得到第n个声源的时域分离信号其中3.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法，其特征在于，所述步骤2)具体包括：在每一个时频点，利用基矩阵T
n
的元素t
n,fk
和激活矩阵V
n
的元素v
n,k,t
，根据下述的非负矩阵分解声源模型，计算第n个声源的时频点在每一个时频点(f,t)的功率谱密度λ
n,f,t
；其中K为预先设置好的基向量个数；并且相应的基矩阵和激活矩阵的更新规则为：
其中4.根据权利要求2所述的基于频域卷积传递函数的多通道非负矩阵分解方法，其特征在于，所述步骤3)具体包括：步骤301)根据估计的第n个声源的功率谱密度λ
n,f,t
，对观测信号x
ft
的协方差矩阵进行加权求和再平均，得到加权协方差矩阵Q
nl,f
；其中为观测信号x
ft
的共轭转秩向量；步骤302)根据步骤...

【专利技术属性】
技术研发人员：王泰辉，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人