活跃发言者位置检测制造技术

技术编号:18467277 阅读:107 留言:0更新日期:2018-07-18 16:41
提供了与确定活跃发言者的位置有关的示例。在一个示例中,房间的图像数据(54)从图像捕捉设备(52)被接收并且三维模型(64)被生成。第一音频数据(26)从图像捕捉设备处的第一话筒阵列(24)被接收。第二音频数据(34)从与图像捕捉设备横向间隔开的第二话筒阵列(30)被接收。第二话筒阵列的位置(82)被确定。使用音频数据以及第二话筒阵列的位置和角取向(68),活跃发言者的估计位置(84)被确定。使用该估计位置,图像捕捉设备的设置(90)被确定并被输出以突出显示该活跃发言者。

Active speaker location detection

An example related to determining the location of the active speaker is provided. In one example, the image data (54) of the room is received from the image capture device (52) and the three-dimensional model (64) is generated. The first audio data (26) is received from the first microphone array (24) at the image capturing device. The second audio data (34) is received from the second microphone array (30) which is horizontally spaced from the image capturing device. The position of the second microphone array (82) is determined. Using audio data and second microphone array location and corner orientation (68), the active speaker's estimated position (84) is determined. Using the estimated position, the setting of the image capture device (90) is determined and output to highlight the active speaker.

【技术实现步骤摘要】
【国外来华专利技术】活跃发言者位置检测背景视频会议系统利用音频和视频电信允许一个位置处的参与者与另一位置处的参与者进行交互。一些视频会议系统可捕捉并传送多个参与者的视图以供在另一系统上显示。为了帮助一个位置处的观看者跟踪另一位置处的对话,视频会议系统可尝试确定在该另一位置处发言的人。然而,准确地标识活跃发言者存在挑战。本文所描述的技术解决方案提供了解决此类挑战的希望。概述本文公开了与确定活跃发言者的位置有关的各种示例。在一个示例中,用于确定活跃发言者的位置的方法可包括从图像捕捉设备接收活跃发言者和至少一个非活跃发言者所在的房间的图像数据。使用该图像数据,房间的至少一部分的三维模型可被生成。可从图像捕捉设备处的第一话筒阵列接收来自房间的第一音频数据。可从与图像捕捉设备横向隔开的第二话筒阵列接收来自房间的第二音频数据。使用三维模型,可确定第二话筒阵列相对于图像捕捉设备的位置。使用至少第一音频数据、第二音频数据、第二话筒阵列的位置、以及第二话筒阵列的角取向可确定活跃发言者在三维模型中的估计位置。活跃发言者的估计位置可被用于计算图像捕捉设备的设置。此类设置可被输出以用于控制图像捕捉设备突出显示活跃发言者。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。此外,所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。附图简述图1是示出根据本公开的示例的用于确定活跃发言者的位置的视频会议设备和第二话筒阵列的示意性图示。图2示出了根据本公开的示例的包括若干人和用于确定活跃发言者的位置的视频会议设备以及第二话筒阵列的房间的示意性透视图。图3示出了图2的房间中的视频会议设备和第二话筒阵列的简化示意性俯视图。图4示出了根据本公开的示例的图2的第二话筒阵列的示意性侧视图。图5示出了根据本公开的示例的图2的第二话筒阵列的示意性俯视图。图6示出了根据本公开的示例的具有声源定位分布的图2的第二话筒阵列。图7A和7B是根据本公开的示例的用于确定活跃发言者的位置的方法的流程图。图8示出了计算系统的示例的简化示意图。详细描述图1示出了用于确定活跃发言者在房间14中的位置的视频会议设备10的一个示例的示意性视图。视频会议设备10包括视频会议组件以便将该设备与不同位置处的一个或多个其他计算设备16通信地耦合。例如,视频会议设备10可经由网络20与(诸)其他计算设备16通信地耦合。在一些示例中,网络20可采取局域网(LAN)、广域网(WAN)、有线网络、无线网络、个域网、或其组合的形式,并且可包括因特网。如下文更详细地描述的,视频会议设备10可包括从房间14接收第一音频数据26的第一话筒阵列24。第二话筒阵列30可位于房间14中并且可从房间14接收第二音频数据34。第二话筒阵列30可将第二音频数据34提供给视频会议设备10。如图1所示,在一些示例中,第二话筒阵列30可诸如经由网络20被无线地耦合到视频会议设备10。在一些示例中,第二话筒阵列30可利用无线通信协议(诸如蓝牙或其他合适的协议)被无线地耦合到视频会议设备10。视频会议设备10可通信地耦合到可显示从(诸)计算设备16接收的视频的显示器36(诸如监视器或其他显示设备)。视频会议设备10可包括一个或多个电声换能器或扬声器38,以在电话会议会话期间广播从(诸)计算设备16接收的音频。以此方式,房间14中的一个或多个参与者40、42可与位于(诸)计算设备16处的一个或多个远程参与者进行视频会议。如下文更详细地描述的,视频会议设备10包括可被存储在视频会议设备10的大容量存储46中的活跃发言者定位程序44。活跃发言者定位程序44可被加载到存储器48中并由视频会议设备10的处理器50执行以执行下文更为详细地描述的方法和过程中的一者或多者。视频会议设备10还可包括一个或多个图像捕捉设备。在图1的示例中,视频会议设备10包括捕捉来自房间14的彩色图像数据54的诸如RGB相机之类的彩色相机52。在一些示例中,视频会议设备还可包括可从房间14捕捉深度图像数据60的深度相机58。在一个示例中,深度相机58可包括红外飞行时间深度相机和相关联的红外照明器。在另一示例中,深度相机可包括红外结构光深度相机和相关联的红外照明器。如下文更详细地描述的,来自(诸)图像捕捉设备的图像数据可被活跃发言者定位程序44使用以生成房间14的至少一部分的三维模型64。此类图像数据也可被用于构建从视频会议设备10的角度来看的周围环境的静止图像和/或视频图像。图像数据还可被用于测量物理参数并以任何合适的方式标识诸如房间14之类的物理空间的表面。在一些示例中,可基于从彩色相机提供的彩色图像数据54导出的深度图来标识房间14的表面。在其他示例中,可基于从深度相机58提供的深度图像数据60导出的深度图来标识房间14的表面。在一些示例中,视频会议设备10可包括独立计算系统。在一些示例中,视频会议设备10可包括另一计算设备的组件,诸如机顶盒、游戏系统、交互式电视、交互式白板或其他类似设备。在一些示例中,视频会议设备10可被集成到包括显示器的外壳中。与视频会议设备10的组件和计算方面有关的附加细节在下文中参考图8更详细地描述。现在参考图2,将描述根据本公开的视频会议设备的示例用例。在图2的示例中,房间216中的第一参与者204、第二参与者208和第三参与者212可利用视频会议设备220来与不同位置处的一个或多个远程参与者进行视频会议。视频会议设备220可采取图1所示的视频会议设备10的形式或其他合适的配置。在此示例中,视频会议设备220包括利用诸如心型话筒之类的四个单向话筒224a、224b、224c和224d的第一话筒阵列224,该四个单向话筒在z轴方向上跨桌台254面向外呈线性阵列布置。在其他示例中,第一话筒阵列可利用任何其他合适的数量、类型和配置的话筒。在图1的示例中,视频会议设备220包括在z轴方向上跨桌台254面向外的RGB相机230和深度相机234。如上所述,在其他示例中,本公开的视频会议设备可利用彩色相机而没有深度相机。在此示例中,视频会议设备220是可拆卸地定位在视频监视器240的顶面上的自包含单元。视频会议设备220可通信地耦合到视频监视器240,以提供来自利用包括视频会议能力的一个或多个计算系统的(诸)远程参与者的视频馈送。还参考图4和5,在一个示例中,第二话筒阵列242包括围绕半球形基座244的外围布置的三个单向心型话筒244a、244b和244c的圆形阵列,以及位于半球形基座244的升高顶部中心处的第四话筒246。在其他示例中,第二话筒阵列242可利用任何其他合适的数量、类型和配置的话筒。在一些示例中,第二话筒阵列242可包括不包含升高话筒的大致平面的话筒阵列。在一些示例中,第二话筒阵列242可包括存储器,该存储器存储定义话筒阵列的操作特性和配置的参数信息。在图2的示例中,且还参考图3-5,第二话筒阵列242与视频会议设备220横向间隔开并位于房间216中的桌台254的平坦表面250上。在其他示例中,第二话筒阵列可被定位在桌台254上的不同位置处,或被定位在房间216内的不同位置中,诸如安装在房间本文档来自技高网...

【技术保护点】
1.一种用于确定活跃发言者的位置的方法,所述方法包括:从图像捕捉设备,接收所述活跃发言者和至少一个非活跃发言者所在的房间的图像数据;使用所述图像数据,生成所述房间的至少一部分的三维模型;从所述图像捕捉设备处的第一话筒阵列,接收来自所述房间的第一音频数据;从与所述图像捕捉设备横向间隔开的第二话筒阵列,接收来自所述房间的第二音频数据;使用所述三维模型,确定所述第二话筒阵列相对于所述图像捕捉设备的位置;使用至少所述第一音频数据、所述第二音频数据、所述第二话筒阵列的位置、以及所述第二话筒阵列的角取向,确定所述活跃发言者在所述三维模型中的估计位置;使用所述活跃发言者的所述估计位置以计算用于所述图像捕捉设备的设置;以及输出所述设置以控制所述图像捕捉设备以便突出显示所述活跃发言者。

【技术特征摘要】
【国外来华专利技术】2016.01.08 US 14/991,8471.一种用于确定活跃发言者的位置的方法,所述方法包括:从图像捕捉设备,接收所述活跃发言者和至少一个非活跃发言者所在的房间的图像数据;使用所述图像数据,生成所述房间的至少一部分的三维模型;从所述图像捕捉设备处的第一话筒阵列,接收来自所述房间的第一音频数据;从与所述图像捕捉设备横向间隔开的第二话筒阵列,接收来自所述房间的第二音频数据;使用所述三维模型,确定所述第二话筒阵列相对于所述图像捕捉设备的位置;使用至少所述第一音频数据、所述第二音频数据、所述第二话筒阵列的位置、以及所述第二话筒阵列的角取向,确定所述活跃发言者在所述三维模型中的估计位置;使用所述活跃发言者的所述估计位置以计算用于所述图像捕捉设备的设置;以及输出所述设置以控制所述图像捕捉设备以便突出显示所述活跃发言者。2.如权利要求1所述的方法,其特征在于,所述图像数据包括与从所述第二话筒阵列的多个光源发射的光相对应的信号,并且所述方法进一步包括使用所述信号来确定所述第二话筒阵列相对于所述图像捕捉设备的角取向。3.如权利要求2所述的方法,其特征在于,所述多个光源以空间上可识别的方式被照亮。4.如权利要求1所述的方法,其特征在于,进一步包括:从所述第二话筒阵列中的磁力计接收信号;以及使用所述磁力计信号,确定所述第二话筒阵列的角取向。5.如权利要求1所述的方法,其特征在于,进一步包括确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动;以及基于确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动,重新计算所述第二话筒阵列的位置和角取向中的一者或多者。6.如权利要求5所述的方法,其特征在于,确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动包括分析从所述第一话筒阵列中的加速度计、所述第一话筒阵列中的磁力计、所述第二话筒阵列中的加速度计、以及所述第二话筒阵列中的磁力计中的一者或多者接收的信号。7.如权利要求1所述的方法,其特征在于,进一步包括:确定所述图像数据不包括所述第二话筒阵列的多个光源的图像数据;以及输出指示所述第二话筒阵列从所述图像捕捉...

【专利技术属性】
技术研发人员:O·A·怀特R·柯特勒A·巴塔查杰A·P·M·库德勒A·柯克S·T·伯奇菲尔德C·张
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1