利用深度成像扩充语音识别制造技术

技术编号:11833080 阅读:113 留言:0更新日期:2015-08-05 19:21
公开了涉及使用深度成像来扩充语音识别的实施例。例如,一个所公开的实施例在计算设备上提供了一种方法,其包括从深度相机接收物理空间的深度信息,从一个或多个麦克风接收音频信息,从音频信息辨识一个或多个可能的口语词语的集合,基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入,以及基于所确定的语音输入在计算设备上采取行动。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
计算机化语音识别设法辨识来自音频信息、诸如来自经由一个或多个麦克风接收的音频信号的口语词语。然而,在辨识音频信息中的口语词语中可能出现歧义。另外,口语词语的上下文(例如口语词语是否意图作为对计算设备的语音输入)可能无法从这样的音频信息容易地确定。
技术实现思路
公开了涉及扩充语音识别的深度成像的使用的实施例。例如,一个公开的实施例在计算设备上提供了一种方法,其包括从深度相机接收物理空间的深度信息,从一个或多个麦克风接收音频信息,从音频信息辨识一个或多个可能的口语词语的集合,基于将来自音频信息的一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入,以及基于所确定的语音输入在计算设备上采取行动。提供本
技术实现思路
来以简化的形式引入在以下【具体实施方式】中进一步描述的概念的选择。本
技术实现思路
不意图辨识所要求保护的主题的关键特征或本质特征,也不意图用于限制所要求保护的主题的范围。另外,所要求保护的主题不限于解决在本公开的任何部分中指出的任何或全部缺点的实现方式。【附图说明】图1示出根据本公开的实施例的语音识别环境的示意性示例。图2是图示了根据本公开的实施例的用于识别语音的方法的流程图。图3是图示了根据本公开的另一实施例的用于识别语音的方法的流程图。图4是图示了根据本公开另外的实施例的用于识别语音的方法的流程图。图5示意性地示出非限制性计算系统。【具体实施方式】计算机化语音识别可能构成各种挑战。例如,各个词语的发音、口音、尖利性、语气、瑕疵/语言障碍和人类语音的其它变量可能广泛地在用户之间不同。此外,回声和/或噪音和在其中说出词语的房间中的其它不想要的声音(例如扩音器、真空清洁器等)可能妨碍语音识别。另外,在其中说出所识别的词语的上下文可能影响如所识别的语音段是否意图作为语音输入的这样的因素。因此,公开了涉及利用在从深度相机接收的深度信息中辨识的字面和/或上下文信息来扩充语音识别过程的实施例。例如,在一些实施例中,说话者的嘴部、舌头和/或喉咙的移动可以从深度信息辨识并且用于确认经由音频数据辨识的可能口语词语的身份,辨识在音频数据中未检测到的词语等。此外,在一些实施例中,由说话者执行的手势、姿势可以从深度信息辨识并且用于将所辨识的词语置于所期望的上下文中,诸如确认所辨识的口语词语意图作为对计算设备的输入。如本文所使用的术语“语音识别”可以包括词语识别、说话者识别(例如环境中的两个或更多用户中的哪个正在说话)、语义识别、情绪识别和/或使用环境中的语音的任何其它合适方面的识别。图1示出语音识别环境100的非限制性示例。具体地,图1示出以可以用于玩各种各样不同的游戏、播放一个或多个不同媒体类型和/或控制或操纵非游戏应用和/或操作系统的娱乐控制台形式的计算系统102。图1还示出诸如电视或计算机监视器之类的显示设备104,其可以用于向用户呈现媒体内容、游戏视觉、非游戏计算内容等。语音识别环境100还包括以在视觉上监视或追踪所观察的场景内的物体和用户的深度相机形式的捕获设备106。捕获设备106可以在经由一个或多个接口在操作上连接到计算系统102。作为非限制性示例,计算系统102可以包括捕获设备106可以连接到的通用串行总线。捕获设备106可以用于识别、分析和/或追踪物理空间内的一个或多个人类主体和/或物体,诸如用户108。在一个非限制性示例中,捕获设备106可以包括将红外光投射到物理空间上的红外光源和被配置成接收红外光的深度相机。捕获设备还可以包括其它传感器,包括但不限于(多个)二维图像传感器(例如诸如RGB图像传感器之类的可见光相机和/或灰度级传感器)和一个或多个麦克风(例如定向麦克风阵列)。虽然描绘为向娱乐控制台提供输入,但是将理解的是,深度相机可以用于提供与用于任何合适的计算系统的语音识别相关的输入,并且可以使用在非游戏环境中。为了对物理空间内的物体成像,红外光源可以发射被物理空间中的物体反射开并且被深度相机接收的红外光。基于所接收的红外光,可以构造物理空间的深度图。捕获设备106可以向计算系统102输出从红外光得到的深度图,其中其可以用于创建由深度相机成像的物理空间的表示。捕获设备还可以用于识别物理空间中的物体、监视一个或多个用户的移动、执行手势识别等。可以虚拟地使用任何深度发现技术而不脱离于本公开的范围。参考图5更详细地讨论示例深度发现技术。图1还示出其中捕获设备106追踪用户108使得用户的移动可以由计算系统102解释的场景。具体地,可以监视用户108的嘴部、舌头和/或喉咙的移动以确定用户108是否在说话。如果用户108在说话,可以分析由计算系统102 (例如经由合并到捕获设备106中和/或位于捕获设备106外部的一个或多个麦克风)接收的音频信息以识别由用户所说的一个或多个词语。嘴部、舌头和/或喉咙移动还可以用于扩充辨识口语词语的过程,例如通过确认说出所辨识的词语,添加附加所辨识的词语等。来自捕获设备的信息还可以用于确定所辨识的口语词语的各种上下文元素。例如,如果附加用户(诸如用户110)存在于物理空间中,可以通过将口语词语与物理空间中的一个或多个用户的嘴部/喉咙/舌头移动进行比较来将从其接收到口语词语的用户与其它用户区分开。另外,面部识别、说话者辨识(例如基于用户的高度、体型、步态等)和/或其它合适的技术还可以被用于确定说话人员的身份。还可以追踪房间中的一个或多个用户的相对位置和/或取向以帮助确定说话者是否在做出语音输入。例如,如果用户在说话时未面向捕获设备,可以确定用户并未向系统说话。同样,在多个用户对捕获设备可见时,用户是否面向捕获设备可以用作辨识哪个人员做出语音输入的信息。另外,一旦已经辨识到一个或多个用户,可以追踪一个或多个用户(例如经由捕获设备)。这可以帮助促进将来所识别的语音与所辨识的说话者的高效匹配,并且因而帮助快速辨识要针对特定用户使用哪个语音识别模型/参数(例如针对该用户调谐语音识别)。另外,经由来自捕获设备106的信息辨识的用户108执行的手势可以用于辨识涉及所辨识的口语词语的上下文信息。例如,如果用户108说话时意图经由话音命令控制计算系统102,用户108可以执行可以指示该意图的一个或多个手势和/或姿势,从容地或以其它方式。示例包括但不限于指向显示设备104、在说话时看向计算系统102或显示设备104,或者执行与所识别的用户输入相关联的特定手势。因此,通过辨识由用户108执行的手势以及辨识口语词语,可以做出用户控制计算设备的意图的确定。同样地,在一些实施例中,如果在说话时用户108看着另一用户,手势朝向另一用户等,可能不意味着控制计算设备的意图。可以从接收自捕获设备106的信息同样地确定其它类型的上下文信息。例如,在一些实施例中,用户108在说话时的情绪状态可以通过来自深度信息的用户108的面部和/或身体特征、姿势、手势等来确定。作为又一示例,所成像的物理空间中的物体可以被辨识并且用于区分有歧义的词语。例如,诸如“四分卫(quarterback)”之类的合成词语可能难以从构成合成词语的各个词语(“四分之一(quarter当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
在计算设备上,一种用于识别用户的语音的方法,包括:从深度相机接收物理空间的深度信息;从一个或多个麦克风接收音频信息;从音频信息辨识一个或多个可能的口语词语的集合;基于将来自音频信息的所述一个或多个可能的口语词语的集合与深度信息比较,确定用于计算设备的语音输入;以及基于所确定的语音输入在计算设备上采取行动。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:J卡普尔I塔舍夫M塞尔策尔SE霍奇斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1