一种低时延音频信号超定盲源分离方法及分离装置制造方法及图纸

技术编号:34436196 阅读:21 留言:0更新日期:2022-08-06 16:19
本发明专利技术属于频域盲源分离和音频信号处理技术领域,具体地说,涉及一种低时延音频信号超定盲源分离方法,该方法包括:麦克风阵列中的每个麦克风阵元拾取目标环境中的N个待分离声源的声信号,并将其转换成对应的数字信号,再对其进行短时傅里叶变换,得到对应的时频域观测信号;对得到的时频域观测信号执行反复迭代和更新,直至达到收敛,获得每个待分离声源的方差和解混合向量;利用得到的解混合向量,构建解混合矩阵;对解混合矩阵求逆得到混合矩阵的估计;针对每一个待分离声源,基于混合矩阵,构建一个多通道维纳滤波器并执行滤波,得到时频域待分离信号;再进行短时傅里叶逆变换,得到待分离信号时域波形。得到待分离信号时域波形。得到待分离信号时域波形。

【技术实现步骤摘要】
一种低时延音频信号超定盲源分离方法及分离装置


[0001]本专利技术属于频域盲源分离(Blind source separation,BSS)和音频信号处理技术领 域,具体地说,涉及一种低时延音频信号超定盲源分离方法及分离装置。

技术介绍

[0002]在多个说话人同时讲话的场景中,人可以把注意力集中在某一个感兴趣的说话 人声音上而自动忽略其他说话人的声音,这就是著名的“鸡尾酒会”问题。该问题最 早是英国的认知学家Cherry教授在上世纪50年代提出的。但是,该问题长期以来悬 而未解。盲源分离就是为解决该问题而发展起来的一个全新的领域。音频信号的盲源 分离有着广泛的应用前景,包括人机语音交互、自动会议日志和音乐分离等。
[0003]近二十年来,频域盲源分离技术作为一类代表性的音频分离解决方案获得快速 发展,代表性的算法包括独立分量分析(independent component analysis,IVA)、独立 向量分析(independent vector analysis,IVA)、独立低秩矩阵分析(independent low

rankmatrix analysis,ILRMA)等。这些算法实质上利用了信号的高阶统计量信息。为了取 得较好的分离性能,需要累积足够多的数据来实现准确的高阶统计量估计。在离线的 实现中,可以利用已经采集的一整段较长的数据实现所需统计量的估计,因而这些算 法取得了较好的性能。很多实际应用系统需要在线实现盲源分离算法,并且要求系统 输入和输出之间的时延尽可能的小。例如,高档助听器要求系统的时延要小于5毫 秒。这对现状的盲源分离算法是一个苛刻的要求。
[0004]目前绝大部分的盲源分离算法都是基于一个所谓的窄带假设,也就是要求短时 傅里叶变换的窗长要远远大于系统混合滤波器的长度。在一个会议系统中,房间的混 响时间的典型值为600毫秒,这要求短时傅里叶变换的窗长要大于600毫秒。显然 该系统时延对很多应用来说太大了。现状的实时盲源分离算法无法显著降低系统的 时延。因而,迫切需要发展一种低时延的音频信号盲源分离技术,满足实时处理的需 求。

技术实现思路

[0005]为了解决现有技术存在的问题,本专利技术提出了一种低时延音频信号超定盲源分 离方法,该方法包括:
[0006]麦克风阵列中的每个麦克风阵元拾取目标环境中的N个待分离声源的声信号, 并将其转换成对应的数字信号,再对其进行短时傅里叶变换,得到对应的时频域观测 信号;
[0007]对得到的时频域观测信号执行反复迭代和更新,直至达到收敛,获得每个待分离 声源的方差和解混合向量;利用得到的解混合向量,构建解混合矩阵;对解混合矩阵 求逆得到混合矩阵的估计;针对每一个待分离声源,基于混合矩阵,构建一个多通道 维纳滤波器并执行滤波,得到时频域待分离信号;再进行短时傅里叶逆变换,得到待 分离信号时域波形。
[0008]本专利技术还提了一种低时延音频信号超定盲源分离装置,该装置包括:
[0009]麦克风阵列包括M个麦克风阵元,用于拾取目标环境中的N个待分离声源的声 信号;其中,M>N;
[0010]A/D模块,用于将所述麦克风阵列拾取的N个待分离声源的声信号转换成对应 的数字信号;
[0011]短时傅里叶变换模块,用于将所述麦克风阵列采集的信号缓存后,并进行短时傅 里叶变换,得到对应的时频域信号;
[0012]声源方差和解混合矩阵估计模块,用于利用得到的时频域观测信号,进行不断迭 代更新,直至达到收敛,估计第n个待分离声源的方差和解混合向量,利用得到的解 混合向量,构建解混合矩阵,并更新解混合矩阵;
[0013]混合矩阵估计模,用于对解混合矩阵求逆,获得混合矩阵;
[0014]多通道维纳滤波模块,用于针对第n个待分离声源,基于混合矩阵,构建第n个 待分离声源的多通道维纳滤波器,并执行滤波,得到第n个待分离声源的时频域信号; 和
[0015]短时傅里叶逆变换模块,用于将所分离得到的N个时频域的声源信号变换成时 域波形,并将其作为真实的待分离声源的声信号,完成低时延音频信号超定盲源分 离。
[0016]作为上述技术方案的改进之一,所述装置还包括:D/A模块和扬声器阵列模块;
[0017]所述D/A模块,用于将所述短时傅里叶逆变换模块输出的分离后的各通道时域 数字信号转换成模拟信号;
[0018]所述扬声器阵列模块,将模拟分离信号通过该扬声器阵列进行播放,并将分离信 号送给后处理模块做进一步处理。
[0019]本专利技术与现有技术相比的有益效果是:
[0020]1、本专利技术的方法提供了一种低时延的音频信号盲源分离方法,适合要求短时延 的实时处理系统,比如远程在线会议系统;
[0021]2、本专利技术的方法通过分离获得的音频信号可以仅包含直达声和早期反射声部分, 从而使本专利技术的方法同时具有信号分离和去混响的特点。
附图说明
[0022]图1为本专利技术的一种低时延音频信号超定盲源分离方法的工作原理图;
[0023]图2是本专利技术的一种低时延音频信号超定盲源分离方法的方法流程图;
[0024]图3是本专利技术的一种低时延音频信号超定盲源分离方法的步骤2)的具体流程 图;
[0025]图4是本专利技术的一种低时延音频信号超定盲源分离装置的结构示意图。
具体实施方式
[0026]现结合附图对本专利技术作进一步的描述。
[0027]本专利技术提供了一种低时延音频信号超定盲源分离方法,该方法解决了超定盲源 分离的问题,要求麦克风数目多于声源数目;本专利技术的方法所需短时傅里叶变换窗长 短于所处空间的混响时间,从而降低了实时处理系统输入输出之间的时延。
[0028]该方法包括:
[0029]麦克风阵列中的每个麦克风阵元拾取目标环境中的N个待分离声源的声信号, 并将其转换成对应的数字信号,再对其进行短时傅里叶变换,得到对应的时频域观测 信号;
[0030]对得到的时频域观测信号执行反复迭代和更新,直至达到收敛,获得每个待分离 声源的方差和解混合向量;利用得到的解混合向量,构建解混合矩阵;对解混合矩阵 求逆得到混合矩阵的估计;针对每一个待分离声源,构建一个多通道维纳滤波器并执 行滤波,得到时频域待分离信号;进行短时傅里叶逆变换,得到待分离信号时域波形。
[0031]如图1所示,在某目标环境空间存在N个待分离声源的声信号s
n
(t),其中, 1≤n≤N且t为离散时间。该待分离声源的声信号s
n
(t)由麦克风阵列中的每个麦克风 阵元同时接收,所述麦克风阵列包括M个麦克风;所述M个麦克风接收到的信号记 为x
m
(t),1≤m≤M。本专利技术的方法限定在超定盲源分离,也就是要求麦克风阵元的总 数目大于声源的数目。从第n个待分离声源到第m个麦克风阵元的时域传递函数为 h
nm
(t),那么第m个麦克风阵元接收到的信号表示为
...

【技术保护点】

【技术特征摘要】
1.一种低时延音频信号超定盲源分离方法,该方法包括:麦克风阵列中的每个麦克风阵元拾取目标环境中的N个待分离声源的声信号,并将其转换成对应的数字信号,再对其进行短时傅里叶变换,得到对应的时频域观测信号;对得到的时频域观测信号执行反复迭代和更新,直至达到收敛,获得每个待分离声源的方差和解混合向量;利用得到的解混合向量,构建解混合矩阵;对解混合矩阵求逆得到混合矩阵的估计;针对每一个待分离声源,基于混合矩阵,构建一个多通道维纳滤波器并执行滤波,得到时频域待分离信号;再进行短时傅里叶逆变换,得到待分离信号时域波形。2.根据权利要求1所述的低时延音频信号超定盲源分离方法,其特征在于,该方法具体包括:步骤1)麦克风阵列中的第m个麦克风阵元拾取目标环境中的第n个待分离声源的声信号s
n
(t),并将其转换成对应的数字信号,记为第m个麦克风信号x
m
(t),并对其进行短时傅里叶变换得到对应的时频域观测信号X
m
(ω,k),其中,1≤n≤N;t为离散时间;1≤m≤M;M为麦克风阵列中的麦克风阵元总数,k是帧标识,ω是频率;步骤2)利用得到的时频域观测信号X
m
(ω,k),进行不断迭代更新,直至达到收敛,估计第n个待分离声源的方差λ
n
(ω,k

l)和解混合向量w
n,l
(ω),利用得到的解混合向量w
n,l
(ω),构建解混合矩阵;并更新解混合矩阵W(ω),其中,1≤n≤N;0≤l≤L
n
;L
n
表示第n个待分离声源待估计的反射声数目,N表示待估计声源数目;步骤3)对所述解混合矩阵W(ω)求逆,得到混合矩阵H(ω);步骤4)针对第n个待分离声源,基于混合矩阵H(ω),构建第n个待分离声源的多通道维纳滤波器Ω
n
(ω,k),并执行滤波,得到第n个待分离声源的时频域信号步骤5)对第n个待分离声源的时频域信号执行短时傅里叶逆变换,得到对应的时域波形并将其作为真实的待分离声源的声信号,完成低时延音频信号超定盲源分离。3.根据权利要求2所述的低时延音频信号超定盲源分离方法,其特征在于,所述麦克风阵列包括M个麦克风阵元,麦克风阵元的数量M大于待分离声源的声信号的总数,记为M>N。4.根据权利要求2所述的低时延音频信号超定盲源分离方法,其特征在于,所有待估计的反射声数目之和等于麦克风阵元的总数目,记为5.根据权利要求2所述的低时延音频信号超定盲源分离方法,其特征在于,所述步骤2)具体包括:步骤201)利用得到的时频域观测信号X
m
(ω,k),更新第n个待分离声源的第k

l帧的方差λ
n
(ω,k

l):其中,F为短时傅里叶变换的窗长;x(ω,k)=[X1(ω,k),

,X
M
(ω,k)]
T
;步骤202)利用λ
n
(ω,k

l),更新第n个待分离声源在最近L
n
帧的加权协方差矩阵V
n,l
(ω,k):
其中,α是接近1的平滑因子;V
n,l
(ω,k

1)为第(k

1)帧的加权协方差矩阵;H为共轭转置;步骤203)利用V
n,l
(ω,k),更新第n个待分离声源对应的L
n
个解混合向量w
n,l
(ω):上式约定L0=0,列向量的第(L0+

+L
n
‑1)+l个元素为1且其他剩余元素都是0,W(ω)=[w
1,0
(ω),

,w
1,L
‑1(ω),

,w
N,0
(ω),

,w
N,L
‑1(ω)]
H
是解混合矩阵;步骤204)对上述更新的第n个待分离声源对应的L
n
...

【专利技术属性】
技术研发人员:王泰辉
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1