当前位置: 首页 > 专利查询>微软公司专利>正文

来自多个视听源的信息的合成制造技术

技术编号:6963896 阅读:170 留言:0更新日期:2012-04-11 18:40
公开了用于合成从聚焦于单个场景的多个音频和可视源接收到的信息的系统和方法。该系统可以基于在捕捉设备的图像数据中标识的共同的线索集合来确定捕捉设备的位置。由于场景常常可以具有移进移出场景的用户和对象,可以使来自多个捕捉设备的数据在时间上同步,以确保来自音频和可视源的数据在相同时间提供同一场景的数据。可以一起协调和吸收来自多个源的音频和/或可视数据,以改进系统的从场景解释音频和/或可视方面的能力。

【技术实现步骤摘要】

本专利技术涉及信息合成系统,尤其涉及用于合成从聚焦于单个场景的多个音频和可视源接收到的信息的系统。背景在过去,诸如计算机游戏和多媒体应用等计算应用使用控制器、遥控器、键盘、鼠标等来允许用户操纵游戏人物或应用的其他方面。近来,计算机游戏和多媒体应用已开始使用照相机和软件姿势识别引擎来提供自然用户界面(“NUI”)。对于NUI,使用捕捉设备来检测用户移动、姿势和语音。相关联的视听数据被转发至处理器,该处理器解释该数据并使用该数据来控制游戏人物或者应用程序的其他方面。当前NUI系统可以使用单个捕捉设备来记录来自玩游戏空间或场景的数据。然而,可能需要增大玩游戏空间或场景的大小。在此情况下,使用单个捕捉设备可能由于许多原因而不适合,诸如,例如,分辨率或场景的照明度不够,或对象在场景内被遮蔽。对于这样的情况,使用一个以上的捕捉设备将是有利的。需要一种系统来合成来自拍摄一个共同的场景的多个捕捉设备的数据,以协调来自多个源的数据。
技术实现思路
此处公开了用于合成从聚焦于单个场景的多个音频和可视源接收到的信息的系统。该系统可包括从两个或更多源接收数据的计算环境。源可以是用于从玩游戏空间或场景捕捉音频和/或可视数据的捕捉设备。本技术的各实施方式首先将捕捉设备彼此校准以及与场景校准。场景常常可以具有移进移出场景的用户和对象。如此,校准过程的第一阶段可包括时间同步来自多个捕捉设备的数据,以确保来自音频和可视源的数据在相同时间提供同一场景的数据。此后,可以通过标识各种捕捉设备的图像数据内的关键点不连续性或线索来将捕捉设备彼此校准。然后,可以通过标识两个或更多捕捉设备的图像所共有的线索的数量,确定两个或更多捕捉设备相对于彼此的相对位置。重复此过程,直到所有捕捉设备的位置都已经相对于彼此被校准。此后,可以将来自多个捕捉设备的可视数据协调并在缝合一起,以改进系统的感应和解释场景的可视方面的能力。类似地,一旦校准了不同的捕捉设备的位置,来自多个捕捉设备的音频数据可以提供改进的音频质量、噪声消减和声源定位。本技术的一个实施方式可以涉及用于合成来自多个源的场景的信息的方法。该方法下列步骤a)从第一源和第二源接收场景信息,第一和第二源在空间上彼此并与场景是分开的;b)根据场景信息以及由第一和第二源从场景共同检测到的一个或多个线索,确定第一和第二源中的每一个的位置;以及c)基于在所述步骤b)中确定的第一和第二源的位置,以及从第一和第二源接收到的信息,创建场景的表示。本技术的再一个实施方式可以涉及用于合成来自多个源的场景的信息的方法,包括下列步骤a)从第一源和第二源接收场景信息,第一源相对于第二源的初始位置是未知的,第一和第二源在空间上彼此并与场景是分开的,场景信息包括图像深度数据和RGB数据中的至少一种;b)根据图像数据和RGB数据中的至少一种,以及来自场景的由第一和第二源共享的场景信息,确定第一和第二源00)中的每一个的位置;以及c)基于在所述步骤 b)中确定的第一和第二源的位置,以及从第一和第二源接收到的信息,创建场景的表示。本技术的再一个实施方式可以涉及用于合成来自多个捕捉设备的游戏应用程序中的玩游戏空间的信息的方法,多个捕捉设备中的捕捉设备包括深度照像机、RGB照像机和至少一个话筒。该方法可包括下列步骤a)从第一捕捉设备和第二捕捉设备接收图像深度数据和RGB深度数据,来自第一和第二捕捉设备的图像深度数据和RGB深度数据被时间同步在一起,第一和第二捕捉设备在空间上彼此并与玩游戏空间是分开的;b)根据已同步的图像深度数据和RGB数据的组合,以及由第一和第二捕捉设备从玩游戏空间共同检测到的多个线索,确定第一和第二捕捉设备中的每一个的位置和方向;c)基于在所述步骤b)中确定的第一和第二捕捉设备的位置,以及从第一和第二捕捉设备接收到的图像深度数据和 RGB深度数据,创建玩游戏空间的表示;d)将来自第一捕捉设备的玩游戏空间表示的第一部分与来自第二捕捉设备的玩游戏空间表示的第二部分缝合在一起;以及e)在与第一和第二捕捉设备相关联的显示器上呈现玩游戏空间的表示。提供本
技术实现思路
以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本专利技术的任一部分中提及的任何或所有缺点的实现。附图说明图IA示出了目标识别、分析,及跟踪系统的示例实施方式,用户正在玩游戏。图IB示出了目标识别、分析,及跟踪系统的另一示例实施方式,用户正在操作图形用户界面。图IC示出了目标识别、分析,及跟踪系统的另一示例实施方式,用户正在玩游戏。图2示出了可以用于目标识别、分析和跟踪系统中的捕捉设备的示例实施方式。图3A示出了可以被用来解释目标识别、分析和跟踪系统中的一个或多个姿势的计算环境的示例实施方式。图IBB示出了可以被用来解释目标识别、分析和跟踪系统中的一个或多个姿势的计算环境的另一示例实施方式。图4示出了从图2的目标识别、分析,及跟踪系统生成的用户的骨架映射。图5是用于将捕捉设备彼此校准以及针对场景校准的过程的高级别流程图。图6是用于同步图像数据以便将捕捉设备彼此校准以及与场景校准的过程的流程图。图7是带有用于捕捉设备彼此校准以及针对场景校准的过程的进一步的细节的流程图。图8是用于从多个捕捉设备捕捉数据并同步该数据以呈现场景的表示的的流程图。图9是带有用于将图像缝合在一起的过程的进一步的细节的流程图。图10是对来自多个捕捉设备的音频数据的流程图。 具体实施例方式现在将参考图1-10描述本技术的各实施方式,它们一般涉及用于合成从聚焦于单个场景的多个音频和可视源接收到的信息的系统。在各实施方式中,该系统在NUI系统内操作,包括用于从单个玩游戏空间或场景捕捉音频和/或可视数据的两个或更多捕捉设备。由于捕捉设备的位置一般可能不是已知的,因此,可以确定捕捉设备相对于场景和相对于彼此的位置和方向。由于场景常常可以具有移进移出场景的用户和对象,可以使来自多个捕捉设备的数据在时间上同步,以确保来自音频和可视源的数据在相同时间提供同一场景的数据。可以一起协调和吸收来自多个源的音频和/或可视数据,以改进系统的解释场景的音频和/或可视方面的能力。最初参考图1A-2,用于实现本专利技术的技术的硬件包括目标识别、分析和跟踪系统 10,该系统可用于识别、分析和/或跟踪诸如用户18等一个或多个人类目标。目标识别、分析与跟踪系统10的实施方式包括用于执行游戏或其他应用的计算环境12。计算环境12可以包括硬件组件和/或软件组件,使得计算系统12可以用于执行诸如游戏应用和非游戏应用之类的应用。在一个实施方式中,计算环境12可以包括诸如标准化处理器、专用处理器、 微处理器等之类的处理器,该处理器可以执行存储在处理器可读存储设备上的用于执行在此所述的过程的指令。该计算环境可以从在各实施方式中可以是或包括多个捕捉设备20的多个源接收信息。捕捉设备20捕捉与捕捉设备感测到的一个或多个用户和/或对象相关的图形和音频数据。在各实施方式中,捕获设备20可以用于捕获与一个或多个用户的移动、姿势和话音相关的信息,所述信息被计算环境接收并且被用于呈现游戏或其他应用的方面、与所述方本文档来自技高网
...

【技术保护点】
1.一种用于合成来自多个源(20)的关于场景的信息的方法,包括:a)从第一源(20)和第二源(20)接收(步骤440,460)场景信息,所述第一和第二源(20)在空间上彼此并与所述场景是分开的;b)根据所述场景信息以及由所述第一和第二源从所述场景中共同检测到的一个或多个线索来确定(404)所述第一和第二源(20)中的每一个的位置;c)基于在所述步骤b)中确定的所述第一和第二源(20)的位置,以及从所述第一和第二源接收到的信息来创建所述场景的表示(步骤470)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:J·A·塔迪夫K·S·佩雷A·AA·基普曼D·易
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1