活跃发言者位置检测制造技术

技术编号：18467277 阅读：107 留言：0更新日期：2018-07-18 16:41

提供了与确定活跃发言者的位置有关的示例。在一个示例中，房间的图像数据(54)从图像捕捉设备(52)被接收并且三维模型(64)被生成。第一音频数据(26)从图像捕捉设备处的第一话筒阵列(24)被接收。第二音频数据(34)从与图像捕捉设备横向间隔开的第二话筒阵列(30)被接收。第二话筒阵列的位置(82)被确定。使用音频数据以及第二话筒阵列的位置和角取向(68)，活跃发言者的估计位置(84)被确定。使用该估计位置，图像捕捉设备的设置(90)被确定并被输出以突出显示该活跃发言者。

Active speaker location detection

An example related to determining the location of the active speaker is provided. In one example, the image data (54) of the room is received from the image capture device (52) and the three-dimensional model (64) is generated. The first audio data (26) is received from the first microphone array (24) at the image capturing device. The second audio data (34) is received from the second microphone array (30) which is horizontally spaced from the image capturing device. The position of the second microphone array (82) is determined. Using audio data and second microphone array location and corner orientation (68), the active speaker's estimated position (84) is determined. Using the estimated position, the setting of the image capture device (90) is determined and output to highlight the active speaker.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】活跃发言者位置检测背景视频会议系统利用音频和视频电信允许一个位置处的参与者与另一位置处的参与者进行交互。一些视频会议系统可捕捉并传送多个参与者的视图以供在另一系统上显示。为了帮助一个位置处的观看者跟踪另一位置处的对话，视频会议系统可尝试确定在该另一位置处发言的人。然而，准确地标识活跃发言者存在挑战。本文所描述的技术解决方案提供了解决此类挑战的希望。概述本文公开了与确定活跃发言者的位置有关的各种示例。在一个示例中，用于确定活跃发言者的位置的方法可包括从图像捕捉设备接收活跃发言者和至少一个非活跃发言者所在的房间的图像数据。使用该图像数据，房间的至少一部分的三维模型可被生成。可从图像捕捉设备处的第一话筒阵列接收来自房间的第一音频数据。可从与图像捕捉设备横向隔开的第二话筒阵列接收来自房间的第二音频数据。使用三维模型，可确定第二话筒阵列相对于图像捕捉设备的位置。使用至少第一音频数据、第二音频数据、第二话筒阵列的位置、以及第二话筒阵列的角取向可确定活跃发言者在三维模型中的估计位置。活跃发言者的估计位置可被用于计算图像捕捉设备的设置。此类设置可被输出以用于控制图像捕捉设备突出显示活跃发言者。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。附图简述图1是示出根据本公开的示例的用于确定活跃发言者的位置的视频会议设备和第二话筒阵列的示意性图示。图2示出了根据本公开的示例的包括若干人和用于...

【技术保护点】
1.一种用于确定活跃发言者的位置的方法，所述方法包括：从图像捕捉设备，接收所述活跃发言者和至少一个非活跃发言者所在的房间的图像数据；使用所述图像数据，生成所述房间的至少一部分的三维模型；从所述图像捕捉设备处的第一话筒阵列，接收来自所述房间的第一音频数据；从与所述图像捕捉设备横向间隔开的第二话筒阵列，接收来自所述房间的第二音频数据；使用所述三维模型，确定所述第二话筒阵列相对于所述图像捕捉设备的位置；使用至少所述第一音频数据、所述第二音频数据、所述第二话筒阵列的位置、以及所述第二话筒阵列的角取向，确定所述活跃发言者在所述三维模型中的估计位置；使用所述活跃发言者的所述估计位置以计算用于所述图像捕捉设备的设置；以及输出所述设置以控制所述图像捕捉设备以便突出显示所述活跃发言者。

【技术特征摘要】
【国外来华专利技术】2016.01.08 US 14/991,8471.一种用于确定活跃发言者的位置的方法，所述方法包括：从图像捕捉设备，接收所述活跃发言者和至少一个非活跃发言者所在的房间的图像数据；使用所述图像数据，生成所述房间的至少一部分的三维模型；从所述图像捕捉设备处的第一话筒阵列，接收来自所述房间的第一音频数据；从与所述图像捕捉设备横向间隔开的第二话筒阵列，接收来自所述房间的第二音频数据；使用所述三维模型，确定所述第二话筒阵列相对于所述图像捕捉设备的位置；使用至少所述第一音频数据、所述第二音频数据、所述第二话筒阵列的位置、以及所述第二话筒阵列的角取向，确定所述活跃发言者在所述三维模型中的估计位置；使用所述活跃发言者的所述估计位置以计算用于所述图像捕捉设备的设置；以及输出所述设置以控制所述图像捕捉设备以便突出显示所述活跃发言者。2.如权利要求1所述的方法，其特征在于，所述图像数据包括与从所述第二话筒阵列的多个光源发射的光相对应的信号，并且所述方法进一步包括使用所述信号来确定所述第二话筒阵列相对于所述图像捕捉设备的角取向。3.如权利要求2所述的方法，其特征在于，所述多个光源以空间上可识别的方式被照亮。4.如权利要求1所述的方法，其特征在于，进一步包括：从所述第二话筒阵列中的磁力计接收信号；以及使用所述磁力计信号，确定所述第二话筒阵列的角取向。5.如权利要求1所述的方法，其特征在于，进一步包括确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动；以及基于确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动，重新计算所述第二话筒阵列的位置和角取向中的一者或多者。6.如权利要求5所述的方法，其特征在于，确定所述第一话筒阵列和所述第二话筒阵列中的至少一者已经移动包括分析从所述第一话筒阵列中的加速度计、所述第一话筒阵列中的磁力计、所述第二话筒阵列中的加速度计、以及所述第二话筒阵列中的磁力计中的一者或多者接收的信号。7.如权利要求1所述的方法，其特征在于，进一步包括：确定所述图像数据不包括所述第二话筒阵列的多个光源的图像数据；以及输出指示所述第二话筒阵列从所述图像捕捉...

【专利技术属性】
技术研发人员：O·A·怀特，R·柯特勒，A·巴塔查杰，A·P·M·库德勒，A·柯克，S·T·伯奇菲尔德，C·张，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人