音频用户交互辨识和上下文精炼制造技术

技术编号:10813879 阅读:115 留言:0更新日期:2014-12-24 18:31
一种执行多个参与者的社交交互分析的系统包含处理器。所述处理器经配置以确定第一经空间滤波输出与多个第二经空间滤波输出中的每一者之间的相似性。所述处理器经配置以基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的所述社交交互,且显示表示所述参与者之间的所述社交交互的输出。所述第一经空间滤波输出是从固定麦克风阵列接收,且所述第二经空间滤波输出是从各自对应于不同参与者的多个可导向麦克风阵列接收。

【技术实现步骤摘要】
【国外来华专利技术】音频用户交互辨识和上下文精炼相关申请案的交叉参考本申请案依据35U.S.C.§119(e)的权益主张2012年5月11日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第61/645,818号美国临时专利申请案的优先权,且主张2012年11月12日申请且标题为“音频用户交互辨识和上下文精炼(AUDIOUSERINTERACTIONRECOGNITIONANDCONTEXTREFINEMENT)”的第13/674,773号美国非临时专利申请案的优先权,以上申请案的内容明确地以引用方式并入本文。
技术介绍
通过在不同时间点确定用户正看着的方向可推导大量有用信息,且此信息可用以增强用户与多种计算系统的交互。因此,常见的是已经采取大量使用基于视觉的方法进行的凝视跟踪研究(即,使用若干不同装置跟踪眼睛)。然而,了解用户的凝视方向仅给出关于用户关注的一个维度的语义信息,且不考虑大部分由语音给出的上下文信息。换句话说,与语音跟踪结合的凝视跟踪的组合将在多种不同用户应用中提供较富含的且较有意义的信息。
技术实现思路
使用基于音频的方法确定上下文信息(即,正发送或由用户接收的非视觉信息)。通过朝向特定人或特定声音源导向音频波束可增强接收侧上的音频用户交互。本文描述的技术因此可允许用户较清楚地理解例如对话的上下文。为了实现这些益处,来自一或多个可导向麦克风阵列的输入和来自固定麦克风阵列的输入可用以在正呈现基于音频的上下文信息(或甚至基于视觉的语义信息)的情况下确定一个人正看着谁或一个人相对于正在说话的人注意什么内容。对于各种实施方案,使用两种不同类型的麦克风阵列装置(MAD)。第一类型的MAD是可导向麦克风阵列(本文也称为可导向阵列),其由用户佩戴在关于用户的眼睛的已知定向上,且多个用户可各自佩戴可导向阵列。第二类型的MAD是固定位置麦克风阵列(本文也称为固定阵列),其放置于与用户(其中一或多者正使用可导向阵列)相同的声学空间中。对于某些实施方案,可导向麦克风阵列可为有源噪声控制(ANC)头戴式耳机或助听器的部分。可存在多个可导向阵列,其各自与例如会议或群组中的不同用户或说话者(本文也称为参与者)相关联。在此上下文中,固定麦克风阵列将随后用以使用音频波束来分离在群组会议期间说话和收听的不同人,所述音频波束对应于所述不同人相对于所述固定阵列定位的方向。评估固定阵列的经分离说话者的音频波束与可导向阵列的输出之间的相关或相似性。相关是相似性量度的一个实例,但可使用若干相似性测量或确定技术中的任一者。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以跟踪参与者之间的社交交互,包含在不同参与者说话或呈现基于音频的信息时参与者随着时间的凝视方向。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以例如放大目标参与者。此缩放又可能在一个用户(在所述时刻是收听者)正凝视着正提供基于音频的信息(即,说话)的另一个人时导致增强的噪声滤波和放大。在一实施方案中,固定阵列的经分离参与者的音频波束与可导向阵列的输出之间的相似性量度可用以自适应地形成目标参与者的较好波束,从而实际上较好地确定用户中的每一者相对于彼此的物理定向。提供此概述以用简化形式介绍概念的选择,所述概念在以下详细描述中进一步描述。此概述既定不识别所主张标的物的关键特征或本质特征,也既定不用以限制所主张标的物的范围。附图说明当结合附图阅读时更好地理解前述概述以及以下对说明性实施例的详细描述。为了说明实施例的目的,在图中展示实施例的实例性构造;然而,实施例不限于所揭示的特定方法和手段。在图中:图1是可用以确定上下文信息的各自佩戴可导向麦克风阵列的用户群组连同固定麦克风阵列的图;图2是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的实施方案的操作流程;图3是使用可导向麦克风阵列和固定麦克风阵列确定用户交互的方法的另一实施方案的操作流程;图4是可提供用户身份和用户正观看哪一方向的指示的实例性显示的图;图5是可产生和显示且指示各种用户交互和会议数据的用户接口的图;图6是可产生且显示(例如,在智能电话显示器上)且指示各种用户交互(例如,在会议期间)的用户接口的实例性显示的图;图7是指示相对于各种话题的各种用户交互的实例性显示的图;图8是指示随着时间的各种用户交互的实例性显示的图;图9是指示随着时间的各种用户交互的另一实例性显示的图;图10是使用交叉相关测量相似性的方法的实施方案的操作流程;图11是使用交叉累积量测量相似性的方法的实施方案的操作流程;图12是使用时域最小二乘法拟合测量相似性的方法的实施方案的操作流程;图13是使用频域最小二乘法拟合测量相似性的方法的实施方案的操作流程;图14是使用板仓-斋藤距离测量相似性的方法的实施方案的操作流程;图15是使用基于特征的方法测量相似性的方法的实施方案的操作流程;图16展示实例性用户接口显示;图17展示示范性用户接口显示以展示显示上的合作缩放;图18是用于放大目标参与者的方法的实施方案的操作流程;图19展示具有额外候选观看方向的实例性用户接口显示;图20是用于自适应地精炼目标说话者的波束的方法的实施方案的操作流程;图21展示相对于麦克风对的平面波传播的远场模型;图22展示线性阵列中的多个麦克风对;图23展示四个不同DOA的未缠绕相位延迟对频率的绘图,且图24展示相同DOA的缠绕相位延迟对频率的绘图;图25展示两个DOA候选的测得相位延迟值和所计算值的实例;图26展示沿着电视机屏幕的顶部边限布置的线性麦克风阵列;图27展示计算帧的DOA差的实例;图28展示计算DOA估计的实例;图29展示针对每一频率识别DOA估计的实例;图30展示使用所计算可能性来针对给定频率识别最佳麦克风对和最佳DOA候选的实例;图31展示可能性计算的实例;图32展示扬声器电话应用的实例;图33展示逐对DOA估计到麦克风阵列的平面中的360°范围的映射;图34和35展示DOA估计中的模糊性;图36展示观测到的DOA的正负号与x-y平面的象限之间的关系;图37到40展示其中源位于麦克风的平面上方的实例;图41展示沿着非正交轴的麦克风对的实例;图42展示使用图41的阵列获得相对于正交x和y轴的DOA估计的实例;图43和44展示针对两对麦克风阵列(例如,如图45中所示)的逐对正规化波束成形器/空波束成形器(BFNF)的实例;图46展示逐对正规化最小方差无失真响应(MVDR)BFNF的实例;图47展示其中矩阵AHA并非条件不良的频率的逐对BFNF的实例;图48展示导向向量的实例;以及图49展示如本文描述的源方向估计的集成方法的流程图。具体实施方式除非由其上下文明确限制,否则术语“信号”在此用以指示其普通意义中的任一者,包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则术语“产生”在此用以指示其普通意义中的任一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则术语“计算”在此用以指示其普通意义中的任一者,例如计算、评估、估计和/或从多个值中选本文档来自技高网...
音频用户交互辨识和上下文精炼

【技术保护点】
一种执行多个参与者的社交交互分析的系统,其包括:处理器,其经配置以:确定第一经空间滤波输出与多个第二经空间滤波输出中的每一者之间的相似性,基于所述第一经空间滤波输出与所述第二经空间滤波输出中的每一者之间的所述相似性确定所述参与者之间的社交交互,以及显示表示所述参与者之间的所述社交交互的输出;其中所述第一经空间滤波输出是从固定麦克风阵列接收,且所述第二经空间滤波输出是从各自对应于不同参与者的多个可导向麦克风阵列接收。

【技术特征摘要】
【国外来华专利技术】2012.05.11 US 61/645,818;2012.11.12 US 13/674,7731.一种用于显示指示用户群组之间的交互的信息的设备,所述设备包括:固定麦克风阵列,其经配置以:产生对应于所述用户群组中的每一主动说话用户的相应输出;以及从多个可导向麦克风阵列接收对应于每一相应用户的相应观看方向的相应经空间滤波输出,每一可导向麦克风阵列被布置以由所述用户群组的相应用户佩戴;以及处理器,其经配置以:基于所述多个可导向麦克风阵列的相应经空间滤波输出与所述固定麦克风阵列的相应输出之间的比较确定对应于所述用户群组的多个用户的多个观看方向,基于所述多个观看方向确定所述用户群组中的一个或多个用户正看着所述用户群组中的特定用户,所述特定用户佩戴所述多个可导向麦克风阵列的特定可导向麦克风阵列,以及基于所述多个观看方向产生显示输出的用户接口,其中所述用户接口经配置以用于以合作方式放大所述特定用户的表示。2.根据权利要求1所述的设备,其中所述输出包括交互曲线图,所述交互曲线图包括:多个识别符,每一识别符对应于所述用户群组的相应用户;以及包括第一指示符的多个指示符,所述第一指示符提供涉及以下各项中的至少一者的信息:看着第二用户的第一用户,所述第一用户和所述第二用户之间的交互的强度,所述第一用户或所述第二用户的参与水平,或所述用户群组的领导者的指示。3.根据权利要求2所述的设备,其中所述交互的强度是基于所述第一用户和所述第二用户已交互的时间而确定的。4.根据权利要求2所述的设备,其中所述第一指示符包括方向、厚度或颜色中的至少一者,其中所述方向指示所述第一用户正看着所述第二用户,所述厚度指示所述第一用户和所述第二用户之间的所述交互的所述强度,且所述颜色指示所述用户群组的所述领导者。5.根据权利要求2所述的设备,其中所述交互曲线图在手持机、或计算机上显示。6.根据权利要求2所述的设备,其中所述第一指示符表示对应于所述第一用户的位置和能量。7.根据权利要求1所述的设备,其中所述处理器进一步经配置以产生第一用户的个人时间线,其中所述个人时间线指示与所述用...

【专利技术属性】
技术研发人员:金莱轩辛钟元埃里克·维瑟
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1