当前位置: 首页 > 专利查询>微软公司专利>正文

使用相位谱的声音源定位制造技术

技术编号:9833427 阅读:130 留言:0更新日期:2014-04-01 23:58
放置在移动机器人上的话筒阵列提供多个信道的音频信号。接收到的音频信号集被称作音频段,音频段被分成多个帧。对来自每对话筒的信号的帧执行相位分析。如果两个话筒在该帧期间都处于活动状态,为这样的每对话筒生成候选角度。结果是该帧的候选角度列表。处理该列表以选择该帧的最终候选角度。随着时间跟踪候选角度的列表以协助为音频段选择最终候选角度的过程。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】放置在移动机器人上的话筒阵列提供多个信道的音频信号。接收到的音频信号集被称作音频段,音频段被分成多个帧。对来自每对话筒的信号的帧执行相位分析。如果两个话筒在该帧期间都处于活动状态,为这样的每对话筒生成候选角度。结果是该帧的候选角度列表。处理该列表以选择该帧的最终候选角度。随着时间跟踪候选角度的列表以协助为音频段选择最终候选角度的过程。【专利说明】使用相位谱的声音源定位背景在数个应用中使用捕捉由声音源生成的声学能量的话筒来确定该声音源的位置是有帮助的。一种确定该位置的方式是搜索空间以查找最大能量区域。该方法通常对诸如噪声和混响之类的干扰不具有鲁棒性。另一种确定该位置的方式是确定到达不同话筒的时间差。来自声音源的声波将在不同时间到达在不同位置处的不同传感器。一种常用的测量这种差异的方法涉及通过寻找互相关函数的峰值来测量由一对话筒接收到的信号的相位差。该方法对诸如噪声和混响之类的干扰不具有鲁棒性。概述提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的选择的概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。放置在移动机器人上的话筒阵列提供多个信道的音频信号。接收到的音频信号集被称作音频段,音频段被划分成多个帧。对来自每对话筒的信号的帧执行相位分析。如果两个话筒在该帧期间都处于活动状态,为这样的每对话筒生成候选角度。结果是该帧的候选角度的列表。处理该列表以选择该帧的最终候选角度。随着时间跟踪候选角度的列表以协助为那个音频段选择最终候选角度的过程。响应于所跟踪的角度,由移动机器人来执行各种操作。例如,移动机器人可以基于所感测到的声音的位置来运动。机器人可以例如通过面向说话者并朝向该说话者运动来对人类说话者作出响应。对机器人的这种重新定位有助于从话筒阵列获取更佳的音频信号,这可以改善其它音频处理操作。位置信息也可以被输入到面部检测处理器,因为该位置信息能够提供人类面部位置的有利线索。因此,在一方面,将来自多对话筒的信号接收到存储器中。处理来自这些话筒的信号以标识这些信号何时为活动的并且计算这些信号的频谱数据。对于每对活动信号,使用频谱数据为该对活动信号确定候选角度。从针对多对话筒的候选角度中选择角度。在一个实施例中,将每个信号作为多个帧来存储,并且在每个帧的基础上进行处理。在多个帧上存储候选角度历史,并且用来自当前帧的候选角度更新该历史。例如,从该历史中选出的角度可以是其所具有的相位失真小于或等于所有条目的最小相位失真的那个角度。从该历史中选出的角度可以是其所具有的角度近似于帧的最高排名候选角度的那个角度。从该历史中选出的角度可以是其所具有的在场分数大于或等于该历史中的各角度的最大在场分数的那个角度。在以下描述中,对附图进行了参考,附图构成了实施方式的一部分且在其中作为示例示出了本专利技术技术的具体示例实现。可以理解,可以使用其它实施例并且可以做出结构上的改变而不背离本专利技术的范围。附图简述图1是声音源定位在移动机器人上的应用的示意图。图2是示出如何从两个话筒计算出声波的角度的示意图。图3是示出声音源定位的示例实现的数据流程图。图4是图3中的各部分的更为详细的数据流程图。图5是角度跟踪列表的示例数据结构的框图。图6是描述声音源定位的示例实现的流程图。图7是在其中可以实现这样的系统的示例计算设备的框图。详细描述以下章节提供了其中可以实现声音源定位的示例操作环境。参考图1,移动机器人100包括话筒阵列102。尽管图1指定为移动机器人,然而可以使用能够支撑话筒阵列102从而保持各话筒间的已知空间关系的任何对象。对移动机器人使用声音源定位仅仅是其中可以使用该技术的一个示例应用。话筒阵列可以被一个或多个静止对象而非移动对象支撑。然而,诸如机器人之类的移动对象可以响应于所确定的声音源的位置而运动。尽管图1中示出了 6个话筒,然而话筒的数目和配置不限于图1中的配置。只要阵列包括多对话筒并且该阵列中的每对话筒之间存在已知的空间关系,可以使用任何配置和数目的话筒。本专利技术不限于所使用的话筒的种类。为了避免归一化来自多个话筒的信号,每对话筒中的两个话筒类型相同。在一个应用中,声音源可以是人类说话者104。人类说话者在说话时发出声音106。可以检测其它声音源,然而在此应用中机器人可以被设计成与人类说话者交互,并且确定人类说话者的位置可以用作该交互中的辅助。在给定该上下文的情况下,现将结合附图2-5更加详细地描述声音源定位的示例实现。在图2中,现在将描述如何确定声音源200的位置。声音源200生成声波202。该声波按已知速度(例如,在通常环境中为340米每秒)行进。如202a、202b和202c处所指示的,该声波朝向话筒204a和204b行进,并在不同时间到达话筒204a和204b。话筒204a和204b是信道对的示例(本文中被标记为“<ca,cb>”)。在给定信道对<ca,cb>的情况下,存在表示穿过原点218的基准线210和穿过两个话筒的线212之间的夹角的全局角度@<?:3>(^>基准线210和原点218对于话筒阵列中的所有信道对都是相同的。诸如在O214所示出的信道对距离|d〈ca,cb>|表示两个话筒之间的几何距离。声音源定位涉及计算穿过声波源和原点218的线与垂直于基准线210的线之间的角度216(( Θ,<ca,cb?)0在下面更详细地描述如何导出该角度。现在参考图3,现在将描述一个描述声音源定位的示例实现的数据流程图。该实现接收来自话筒阵列(未示出)的输入音频信号300。每个话筒提供音频信号,诸如以每秒S个样本的采样速率采样的K位数字音频信号。合适的K值是16且合适的S值是16kHz。由此,8个话筒的话筒阵列提供8信道输入音频信号。在帧的基础上处理输入音频信号,其中一帧包含128个样本。在第i帧处第c信道的输入音频信号被表示为X。,i (η),其中η=0,1,…N-1 (N=128),c=0,1,处理输入信号X。,i (η)以产生第i帧的声音到达角度Θ it)处理器302接收输入音频信号300并对这些信号执行各种操作以使这些信号作好供分析的准备。这样的预处理可包括DC移除滤波器。这种DC移除滤波器被用来抑制不想要的极低频率的分量以供随后处理。这种滤波器的一个示例实现是一阶有限脉冲响应(FIR)滤波器并且输入信号被逐信道(channel-by-channel)地处理。滤波器的输出被计算为【权利要求】1.一种计算机实现的过程,包括: 将来自多对话筒的信号接收到存储器中; 处理来自所述话筒的信号以标识所述信号何时为活动的; 计算所述信号的频谱数据; 对于每对活动信号,使用所述频谱数据来确定该对活动信号的候选角度;以及 从针对多对话筒的候选角度中选择角度。2.如权利要求1所述的计算机实现的过程,其特征在于,其中接收信号包括将每一信号作为多个帧来接收,并且其中处理、计算、确定和选择是在每一帧的基础上执行的。3.如权利要求1所述的计算机实现的过程,其特征在于,从所述候选角度中选择角度包括使用有关先前候选角度的信息来选择角度。4.如权利要求3所述的计算机实现的过程,其特征在于,选择进一步包括: 本文档来自技高网...

【技术保护点】
一种计算机实现的过程,包括:将来自多对话筒的信号接收到存储器中;处理来自所述话筒的信号以标识所述信号何时为活动的;计算所述信号的频谱数据;对于每对活动信号,使用所述频谱数据来确定该对活动信号的候选角度;以及从针对多对话筒的候选角度中选择角度。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:S·瑞古纳萨恩K·科什达H·N·基科日
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1