声源定位设备、声源定位方法和程序技术

技术编号:33769333 阅读:12 留言:0更新日期:2022-06-12 14:21
一种声源定位设备(2)包括:声音信号向量生成部(21),其基于从接收声源所生成的声音的多个麦克风(11)输出的多个电信号来生成声音信号向量;子空间识别部(22),其识别与包括在声音信号向量中的信号分量相对应的信号子空间以及与包括在声音信号向量中的噪声分量相对应的噪声子空间;候选识别部(23),其通过将延迟和阵列法应用于声音信号向量来识别用于指示声源的方向的多个候选的一个或多于一个候选向量;以及方向识别部(24),其基于包括信号子空间和噪声子空间内积的平方和的优化目标函数,将使用基于一个或多于一个候选向量中的至少一个候选向量的初始解搜索出的声源方向向量所指示的方向识别为声源的方向。向向量所指示的方向识别为声源的方向。向向量所指示的方向识别为声源的方向。

【技术实现步骤摘要】
【国外来华专利技术】声源定位设备、声源定位方法和程序


[0001]本公开涉及声源定位设备、声源定位方法和用于识别声源位置的程序。

技术介绍

[0002]传统地,研究了用于识别声源方向的方法。专利文献1公开了用于通过估计各种参数以使表示声源方向的后验分布与变分函数之间的差异的基于变分推断(variational inference)方法的目标函数最小化来估计声源位置的方法。
[0003][现有技术文献][0004][专利文献][0005]专利文献1:日本专利第6623185号公报

技术实现思路

[0006][专利技术要解决的问题][0007]当像在传统方法中那样使用变分推断方法时,估计值和用于获得估计值的变量是随机变量,因此存在多个未知参数。由于需要大量的计算来估计多个变量,因此使用变分推断的传统方法不适用于会议中声源的实时定位。
[0008]本公开关注该点,并且本公开的目的是缩短定位声源所需的时间。
[0009]用于解决问题的方案
[0010]本公开的一方面提供了一种声源定位设备,包括:声音信号向量生成部,其基于从多个麦克风输出的多个电信号来生成声音信号向量,所述多个麦克风接收声源所生成的声音;子空间识别部,其识别与所述声音信号向量中所包括的信号分量相对应的信号子空间以及与所述声音信号向量中所包括的噪声分量相对应的噪声子空间;候选识别部,其通过将延迟和阵列法应用于所述声音信号向量来识别用于指示所述声源的方向的多个候选的一个或多于一个候选向量;以及方向识别部,其基于包括所述信号子空间和所述噪声子空间的内积的平方和的优化目标函数,将使用基于所述一个或多于一个候选向量中的至少一个候选向量的初始解搜索出的声源方向向量所指示的方向识别为所述声源的方向。
[0011]所述候选识别部可以在通过将所述延迟和阵列法应用于所述声音信号向量所识别出的所述一个或多于一个候选向量中,识别出与对应于所述信号子空间的信号子空间向量的内积的平方和满足预定的可靠度条件的所述初始解。
[0012]所述候选识别部可以与所述子空间识别部识别所述信号子空间和所述噪声子空间的处理并行进行识别所述一个或多于一个候选向量的处理。
[0013]所述声音信号向量生成部可以通过对所述多个电信号进行傅立叶变换来生成所述声音信号向量,以及所述方向识别部可以针对所述傅立叶变换的各帧识别所述声源的方向。
[0014]所述方向识别部可以基于平均方向向量来识别所述声源的方向,所述平均方向向量是通过对利用所述傅立叶变换所生成的与多个频率区间相对应的多个所述声源方向向
量进行平均而得到的。
[0015]所述候选识别部可以通过以所述一个或多于一个候选向量的计算能够在应用于所述多个电信号的所述傅立叶变换的一帧内完成的方式对所述频率区间进行间隔剔除,来识别所述一个或多于一个候选向量。
[0016]所述方向识别部通过使用由下式表示的所述优化目标函数的随机梯度下降法来识别所述声源方向向量,
[0017][0018]其中,是方向,是假设在θ和方向存在目标声源时的虚拟导向向量,t是帧号,k是频率区间号,并且Q
N
(t,k)噪声子空间向量。
[0019]所述子空间识别部可以根据正交性目标函数来识别所述信号子空间,所述正交性目标函数是基于所述声音信号向量和通过将所述声音信号向量投影在所述信号子空间上所获得的向量之间的差的。
[0020]所述子空间识别部基于由以下等式表示的所述正交性目标函数来识别所述信号子空间,
[0021][0022]其中,β是遗忘函数,t是帧号,k是频率区间号,Q
S
(t,k)是信号子空间向量,Q
PSH
(l

1,k)是前一帧中的信号子空间向量的估计结果,并且X是声音信号。
[0023]本专利技术的第二方面提供一种声源定位方法,包括由计算机执行的以下步骤:基于由多个麦克风输出的多个电信号来生成声音信号向量,所述多个麦克风接收声源所生成的声音;识别与所述声音信号向量中所包括的信号分量相对应的信号子空间以及与所述声音信号向量中所包括的噪声分量相对应的噪声子空间;通过将延迟和阵列法应用于所述声音信号向量来识别用于指示所述声源的方向的多个候选的多个候选向量;以及基于包括所述信号子空间和所述噪声子空间的内积的平方和的第一目标函数,将从所述多个候选向量所指示的方向中选择出的声源方向向量指示的方向识别为所述声源的方向。
[0024]本专利技术的第三方面提供一种程序,用于使计算机执行以下步骤:基于由多个麦克风输出的多个电信号来生成声音信号向量,所述多个麦克风接收声源所生成的声音;识别与所述声音信号向量中所包括的信号分量相对应的信号子空间以及与所述声音信号向量中所包括的噪声分量相对应的噪声子空间;通过将延迟和阵列法应用于所述声音信号向量来识别用于指示所述声源的方向的多个候选的多个候选向量;以及基于包括所述信号子空间和所述噪声子空间的内积的平方和的第一目标函数,将从所述多个候选向量所指示的方向中选择出的声源方向向量指示的方向识别为所述声源的方向。
[0025]专利技术的效果
[0026]根据本公开,可以缩短定位声源所需的时间。
附图说明
[0027]图1是用于示出麦克风系统的概况的图。
[0028]图2示出了麦克风阵列的设计模型。
[0029]图3示出了声源定位设备的配置。
[0030]图4是声源定位设备执行声源定位方法的处理的流程图。
[0031]图5是识别声源方向的方向识别部的处理的流程图。
具体实施方式
[0032][麦克风系统S的概要][0033]图1是用于示出麦克风系统S的概况的图,该麦克风系统S包括麦克风阵列1,声源定位设备2和波束形成器3。麦克风系统S是用于收集由多个说话者H(图1中的说话者H

1至H

4)在诸如会议室或大厅等的空间中生成的语音的系统。
[0034]麦克风阵列1具有由图1中的黑色圆圈表示的多个麦克风11,并且它们被安装在说话者H停留的空间的天花板、壁面或地板面上。麦克风阵列1将基于输入到多个麦克风11的语音的多个声音信号(例如,电信号)输入到声源定位设备2。
[0035]声源定位设备2分析从麦克风阵列1输入的声音信号,以识别生成语音的声源(即说话者H)的方向。正如后面将详细描述的那样,声源的方向由以麦克风阵列1为中心的方向表示。例如声源定位设备2包括处理器,并且该处理器执行程序以识别声源的方向。
[0036]波束形成器3通过基于声源定位设备2所识别到的声源方向调整与多个麦克风11相对应的多个声音信号的权重因子来进行波束形成处理。例如,波束形成器3使对说话者H所生成的语音的灵敏度大于对来自除说话者H所在方向以外的方向的声音的灵敏度。声源定位设备2和波束形成器3可由相同处理器实现。
[0037]图1示出了说话者H

2正在生成语音的状态。在图1所示的状态中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种声源定位设备,包括:声音信号向量生成部,其基于从多个麦克风输出的多个电信号来生成声音信号向量,所述多个麦克风接收声源所生成的声音;子空间识别部,其识别与所述声音信号向量中所包括的信号分量相对应的信号子空间以及与所述声音信号向量中所包括的噪声分量相对应的噪声子空间;候选识别部,其通过将延迟和阵列法应用于所述声音信号向量来识别用于指示所述声源的方向的多个候选的一个或多于一个候选向量;以及方向识别部,其基于包括所述信号子空间和所述噪声子空间的内积的平方和的优化目标函数,将使用基于所述一个或多于一个候选向量中的至少一个候选向量的初始解搜索出的声源方向向量所指示的方向识别为所述声源的方向。2.根据权利要求1所述的声源定位设备,其中,所述候选识别部在通过将所述延迟和阵列法应用于所述声音信号向量所识别出的所述一个或多于一个候选向量中,识别出与对应于所述信号子空间的信号子空间向量的内积的平方和满足预定的可靠度条件的所述初始解。3.根据权利要求1或2所述的声源定位设备,其中,与所述子空间识别部识别所述信号子空间和所述噪声子空间的处理并行地,所述候选识别部进行识别所述一个或多于一个候选向量的处理。4.根据权利要求1或3所述的声源定位设备,其中,所述声音信号向量生成部通过对所述多个电信号进行傅立叶变换来生成所述声音信号向量,以及所述方向识别部针对所述傅立叶变换的各帧识别所述声源的方向。5.根据权利要求4所述的声源定位设备,其中,所述方向识别部基于平均方向向量来识别所述声源的方向,所述平均方向向量是通过对利用所述傅立叶变换所生成的与多个频率区间相对应的多个所述声源方向向量进行平均而得到的。6.根据权利要求5所述的声源定位设备,其中,所述候选识别部通过以所述一个或多于一个候选向量的计算能够在应用于所述多个电信号的所述傅立叶变换的一帧内完成的方式对所述频率区间进行间隔剔除,来识别所述一个或多于一个候选向量。7.根据权利要求4至6中任一项所述的声源定位设备,其中,所述方向识别部通过使用由下式表示的所述优化目标函数的随机梯度下降法来识别所述声源方向向量,[等式13]其中...

【专利技术属性】
技术研发人员:金丸真健
申请(专利权)人:铁三角有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1