当前位置: 首页 > 专利查询>微软公司专利>正文

复合姿势-语音命令制造技术

技术编号:7039725 阅读:249 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及复合姿势-语音命令。一种多媒体娱乐系统将姿势和语音命令组合以提供增强的控制方案。用户的身体位置或运动可被识别为姿势,且可被用于提供用于识别用户生成的声音(诸如语音输入)的上下文。同样,语音输入可被识别为语音命令,且可被用于提供用于将身体位置或运动识别为姿势的上下文。权重可被赋给这些输入以促进处理。当姿势被识别出时,加载与识别出的姿势相关联的语音命令的有限集合以供使用。此外,语音命令的附加集合可按分层方式被结构化,以使得说出来自语音命令的一个集合的语音命令导致系统加载下一集合的语音命令。

【技术实现步骤摘要】

本专利技术涉及计算机系统的控制,尤其涉及使用结合了声音(诸如 语音或拍手)和身体位置(诸如姿态或姿势)两者的复合命令的系统和方法。
技术介绍
通常向计算机游戏和其他多媒体应用的用户提供用户控制,用户控制允许用户完成基本功能(诸如浏览和选择内容)以及执行更复杂的功能(诸如操纵游戏人物)。通常, 这些控制通过诸如鼠标、键盘、话筒、图像源、音频源、遥控器等输入设备作为输入被提供给控制器。遗憾的是,学习和使用此类控制命令可能是困难或麻烦的,由此造成了用户与完全享受此类游戏、应用及其特征之间的障碍。
技术实现思路
公开了用于使用结合了声音(诸如语音或拍手)和身体位置(诸如姿态或姿势) 两者的复合命令的系统和方法。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉由用户产生的任何声音以及用户的静态和动态身体位置(包括姿态或姿势)的捕捉设备。该控制器处理所捕捉的数据以识别身体位置命令和声音命令。有利地,使用身体位置命令和声音命令的组合允许用分布在不同的操作状态级别上的较小命令集合来实现该系统。因此,处理身体位置命令和声音命令的组合增强了识别软件的可靠性和准确性。例如,捕捉设备可捕捉与身体位置移动有关的输入并将该移动识别为所定义的姿势。给定所捕捉的输入,与识别出的姿势相关联的语音或声音命令的有限集合可被标识并被加载到控制器中。在接收到声音输入时,基于所加载的声音命令集合识别声音输入。最后,基于识别出的姿势以及识别出的声音命令的组合执行动作。有利地,可在用户界面上提供上下文菜单以帮助用户列出可用的语音或声音命令,且这些上下文菜单本质上可以是分层的。例如,第一姿势可导致使用第一语音库。然而,一旦说出来自第一语音库的语音命令,另一语音命令集合可变得可用,且第二语音库可被加载到控制器中。以类似方式,可在适当时在上下文菜单中向用户介绍不同级别的语音命令。捕捉设备可大致同时捕捉身体位置输入和声音输入。在这种情形中,身体位置输入可被用于提供用于验证声音命令的上下文,或者声音命令可被用于提供用于验证身体位置命令的上下文。此外,权重可被赋给识别出的命令以帮助提供用于决定身体位置输入和 /或声音输入的正确解释的上下文。提供本概述以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。对本文公开的设备和方法的性质和优点的进一步理解可通过参考完整说明书和附图来实现。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本专利技术的任一部分中提及的任何或所有缺点的实现。 附图说明图1 示出具有用于捕捉和跟踪用户身体位置和移动以及接收用户声音输入的捕捉设备的示例性多媒体环境中的用户。图2是示出耦合到计算设备的捕捉设备的一个实施例的框图。图3是正被跟踪的骨架的示意表示。图4是示出用于处理从捕捉设备接收的数据的计算系统的一个实施例的框图。图5是示出用于处理从捕捉设备接收的数据的计算系统的另一个实施例的框图。图6是描述用于使用语音命令与计算系统进行用户交互的过程的一个实施例的流程图。图7A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的一个实施例的流程图。图7B是描述除了图7A中所示的那些步骤以外的用于使用手势和语音命令与计算系统进行用户交互的其他步骤的流程图。图7C-7D是描述图7A所示的过程中用于识别手势的附加细节的流程图。图7E是描述图7A所示的过程中用于识别语音命令的附加细节的流程图。图8A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。图8B是描述根据图8A将姿势与语音命令相关的一种选项的流程图。图8C是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。图8D是描述根据图8A将姿势与语音命令相关的另一种选项的流程图。图9A是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。图9B是描述用于使用手势和语音命令与计算系统进行用户交互的过程的替换实施例的流程图。图9C是描述用于使用特定的手势和上下文语音命令与计算系统进行用户交互的过程的一个实施例的流程图。图IOA是实现图7A的流程图的第一级用户界面的图示。图IOB是实现图7B的流程图的第二级用户界面的图示。图IOC是第三级用户界面的图示。具体实施例方式用于多媒体娱乐系统的复合命令可结合声音命令和身体位置命令两者。多媒体对象被显示在用户界面上。用户界面的控制器包括用于捕捉用户的身体位置和任何移动、以及由用户产生的任何声音的捕捉设备。该控制器处理所捕捉的信息以识别预定义的声音命令和身体位置命令,包括姿态、姿势和语音命令。如本文中所使用的,术语“姿势”旨在涵盖所有身体位置命令,无论是由静态姿态还是动态移动(诸如手势)构成。在一个实施例中,一旦姿势被识别出,则随后将与该姿势有关的声音或语音命令的集合加载到控制器中。这样,可以向用户提供声音或语音命令的更加有限和精确的集合。 例如,用户讲话,控制器将该讲话识别为语音命令。响应于识别出的语音命令,执行预定义的动作。可在界面上显示帮助菜单/消息,其示出操作状态以及与所显示的对象有关的可用声音/语音命令。在另一 实施例中,第一语音命令被用于将后续语音命令的集合缩小为与第一语音命令相关联的语音命令的较小子集。例如,当用户说出第一语音命令时,可显示向用户指示能遵循第一语音命令的语音命令的集合的帮助消息或菜单。在接收和识别相关语音命令的整个集合时,可执行必要的动作。替换地,姿势和部分语音命令的组合可使用有帮助的上下文菜单引导用户通过每一级命令。在另一实施例中,姿势和语音命令实质上是同时被接收的(或换言之在时间上重叠),且将两种识别方案相关,从而与识别相关联的准确性和置信度得以提高。此外,对于应用的每个增量部分,特定操作状态的可用姿势和语音命令的数量要小得多,由此简化了对系统的使用以及处理方案两者。图1示出用户18在拳击视频游戏中与多媒体娱乐系统10交互。有利地,系统10 被配置成捕捉、分析和跟踪由用户18在系统10的捕捉设备20的范围内作出的移动和声音。这允许用户使用语音命令、姿势、或姿势与语音命令的组合与系统10交互,如以下进一步描述的。系统10包括运行拳击应用的控制器12。控制器12是计算系统,诸如计算机、游戏系统、多媒体控制台等。在一个实施例中,计算系统12包括硬件组件和/或软件组件,从而计算系统12被用于执行诸如游戏应用或其他应用等的应用。在一个实施例中,计算系统 12包括执行存储在处理器可读存储设备上的用于执行以下描述的过程的指令的处理器,如标准化处理器、专用处理器、微处理器等。例如,由捕捉设备20捕捉的移动和声音被发送给控制器12进行处理,其中识别软件将分析该移动和声音以确定其在该应用的上下文中的意义。捕捉设备20可包括相机或成像设备23,其在视觉上监视诸如用户18的一个或多个用户,从而可以捕捉、分析并跟踪诸如用户所执行的姿态、姿势和/或其他移动之类的身体位置和移动,来执行应用中的一个或多个动作或控制和/或动画化化身或屏上人物。此夕卜,捕捉设备20可包括用于检测用户18发出的语音命令和其他声音(诸如拍手)的话筒 30。捕捉设备的细节在2010年3月12日提交的题为“Bionic Mo本文档来自技高网
...

【技术保护点】
1.一种用于使用语音命令的集合来控制计算系统的方法,包括:在显示监视器上显示一个或多个对象(410);从传感器接收身体位置数据(412);基于接收的身体位置数据识别与所述一个或多个对象有关的姿势(414);基于识别出的姿势选取所述声音命令的集合的子集(416),所述声音命令的集合包括多个子集,每个子集与一个或多个姿势以及相应子集的声音命令识别数据相关联;加载所选取的声音命令的子集的声音命令识别数据(418);从话筒接收声音输入(420);使用所加载的声音命令识别数据从所述声音输入识别声音命令(422);以及响应于识别出的声音命令执行动作(424)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:C·克莱因A·M·瓦赛尔J·S·弗莱克斯V·拉尔科T·M·苏摩
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1