当前位置: 首页 > 专利查询>微软公司专利>正文

多模态性别识别制造技术

技术编号:6898730 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了多模态性别识别的方法和系统。使用两个或多个模态来执行性别识别。例如,接收深度图像数据以及除深度图像数据以外的一个或多个类型的数据。该数据与人有关。不同类型的数据被融合在一起,以便自动地确定该人的性别。计算系统随后可基于对性别的确定来与该人进行交互。

【技术实现步骤摘要】

本专利技术涉及计算机应用,尤其涉及计算机应用中的性别识别技术。
技术介绍
从在因特网上冲浪到娱乐以及生产性工具,计算机在日常生活中正变得越来越有用。在许多计算机应用中,可基于性别来优化用户与计算机之间的交互。即,计算机可为男性提供与女性不同的体验。在某些情况下,基于性别的不同体验用于定制娱乐体验。例如,在玩某些视频游戏时,该游戏可包括控制化身的用户。女性玩家控制女性化身以及男性玩家控制男性化身可能是合乎需要的。在其他情况下,基于性别的不同体验是出于性能原因。例如,某些计算设备可以是语音控制的。出于许多原因,识别语音命令可能是困难的。一个原因是男性与女性具有不同的语音。知道用户是男性还是女性可帮助语音命令识别系统通过使用适当的声学模型来识别语音命令。
技术实现思路
提出了用于基于两个或多个模态来自动地识别性别的技术,两个或多个模态中的一个是深度图像数据的源。来自每一模态的贡献取决于具体环境中的模态的可靠性而是不同的且动态的。使用此处描述的一个或多个方法将自不同模态的不同数据融合在一起,以便达到性别的确定。一个实施例包括接收关于人的深度数据,接收关于该人的除深度数据以外的一个或多个类型的数据,基于该深度数据以及除深度数据以外的该一个或多个类型的数据来确定该人的性别,以及基于对性别的确定来执行动作(例如与该人进行交互)。—个实施例包括一个或多个具有在其上存储有处理器可读代码的处理器可读存储设备。处理器可读代码对一个或多个处理器进行编程。处理器可读代码包括提取深度特征的代码、提取一个或多个其他特征的代码、基于至少一个深度特征来对性别进行分类的代码、基于至少一个除深度以外的特征来对性别进行分类的代码、以及基于输出来作出关于性别结论的代码,该输出来自基于至少一个深度特征来对性别进行分类的代码和基于至少一个除深度以外的特征来对性别进行分类的代码。一个实施例包括深度传感器、不同于深度传感器的传感器、用户接口(例如键盘、 鼠标、监视器、触摸屏、话筒、扬声器等)、以及与该深度传感器、不同的传感器和用户接口通信的处理器。处理器基于来自深度传感器以及不同的传感器的数据来确定人的性别。处理器基于对性别的确定来改变用户接口。提供本
技术实现思路
以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本专利技术的任一部分中提及的任何或所有缺点的实现。 附图说明图IA和IB示出了其中用户在玩游戏的跟踪系统的示例实施例。图2示出可用作跟踪系统的一部分的捕捉设备的示例实施例。图3描绘了骨架的示例。图4示出计算系统的示例实施例。图5示出计算系统的另一示例实施例。图6是用于确定性别的软件组件的框图。图7是描述用于获得数据、基于数据来确定性别、并且使用对性别的确定来与用户交互的过程的一个实施例的流程图。图8是描述用于自动地确定性别的过程的一个实施例的流程图。图9是描述用于训练的过程的一个实施例的流程图。图10是描述用于对性别分类的过程的一个实施例的流程图。图11是描述用于融合判定数据以确定性别的过程的一个实施例的流程图。图12是描述用于融合特征数据以确定性别的过程的一个实施例的流程图。图13是描述用于融合传感器数据以确定性别的过程的一个实施例的流程图。图13A描绘用于模型化对传感器数据的融合的图。图14A是描述用于基于对性别的确定来与用户交互的过程的一个实施例的流程图。图14B是描述用于基于对性别的确定来与用户交互的过程的一个实施例的流程图。具体实施例方式提供了用于基于两个或多个类型的数据来自动地确定性别的技术。性别识别对于包括诸如使用适当的化身来与用户交互或选择适当的声学模型来识别用户的语音等的人机交互的许多应用是非常有用的。可从诸如语音、面部、体形以及步态(步行方式)等多个源来观察性别信息。来自单个源的性别识别可能是易于出错的。并且即使对于相同的数据源,不同模态的传感可揭示不同的性别特征。例如,鼻子结构是用于区分男性与女性的示例特征,并且可容易地由深度相机观察,但由来自前方的摄像机观察是困难的。由此,以下描述的各系统集成来自多个模态的可用信息,以便产生对用户性别的准确识别。以下提供了用视频游戏系统来使用性别识别技术的各示例。视频游戏系统的使用仅仅是一个可能的实现,并且被用作教导该技术的一个示例。然而,此处描述的系统还适用于其他类型的数据处理系统和/或其他类型的应用。图IA和IB示出了其中用户18在玩拳击游戏的系统10的示例实施例。在一示例实施例中,系统10可被用于识别、分析和/或跟踪人类目标(如跟踪系统10的范围内的用户18或其他对象),并且与用户交互。通过知道用户的性别,可为该用户定制交互。如图IA所示,跟踪系统10可包括计算系统12。计算系统12可以是计算机、游戏系统或控制台等。根据一示例实施例,计算系统12可包括硬件组件和/或软件组件,从而计算系统12可被用于执行例如游戏应用、非游戏应用等的应用。一个实施例中,计算系统 12可包括可执行存储在处理器可读存储设备上的用于执行此处描述的过程的指令的处理器,如标准化处理器、专用处理器、微处理器等。如图IA所示,跟踪系统10还可包括捕捉设备20。捕捉设备20可以是,例如可用于在视觉上监视诸如用户18等一个或多个用户,从而可以捕捉、分析并跟踪一个或多个用户所执行的姿势和/或移动,来执行应用中的一个或多个控制命令或动作和/或动画化化身或屏上人物的相机,下面将更详细地描述。根据一个实施例,跟踪系统10可连接至可向诸如用户18等的用户提供游戏或应用视觉和/或音频的视听设备16,如电视机、监视器、高清电视机(HDTV)等。例如,计算系统12可包括诸如图形卡等视频适配器和/或诸如声卡等音频适配器,这些适配器可提供与游戏应用、非游戏应用等相关联的视听信号。视听设备16可从计算系统12接收视听信号, 然后可向用户18输出与视听信号相关联的游戏或应用视觉和/或音频。根据一个实施例, 视听设备16可经由例如,S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等连接至计算系统12。如图IA和IB所示,跟踪系统10可用于识别、分析和/或跟踪诸如用户18等的人类目标。例如,可使用捕捉设备20来跟踪用户18,从而可以捕捉用户18的姿势和/或移动来动画化化身或屏幕上人物,和/或可将用户18的姿势和/或移动解释为可用于影响计算机环境12所执行的应用的控制命令。因此,根据一实施例,用户18可移动他的或她的身体来控制应用和/或动画化化身或屏幕上人物。在图IA和IB中描绘的示例中,在计算系统12上执行的应用可以是用户18正在玩的拳击游戏。例如,计算系统12可使用视听设备16来向用户18提供拳击对手22的视觉表示。计算系统12还可使用视听设备16来提供用户18可用他的或她的移动来控制的用户化身M的视觉表示。例如,如图IB所示,用户18可在物理空间中挥重拳来使得用户化身M在游戏空间中挥重拳。因此,根据一示例实施例,计算系统12和捕捉设备20识别并分析物理空间中用户18的重拳从而使得该重拳可被解释为对游戏空间中的用户化身M 的游戏控制和/或该重拳的运动可用于动画化游戏本文档来自技高网
...

【技术保护点】
1.一种用于数据处理系统与用户进行交互的方法,包括:接收关于人的深度数据(402);接收除关于该人的深度数据以外的一个或多个类型的数据(408、412);基于所述深度数据以及除深度数据以外的所述一个或多个类型的数据来自动地确定该人的性别(416);以及基于对性别的确定来执行动作(418)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:Z·张A·AA·基普曼
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1