当前位置: 首页 > 专利查询>微软公司专利>正文

经由标识信息的语音识别分析制造技术

技术编号:6043073 阅读:251 留言:0更新日期:2012-04-11 18:40
本发明专利技术描述了一种经由标识信息的语音识别分析的方法和系统。所公开的各实施例涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件。一个实施例提供了一种方法,该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据,并且还接收包括与图像中的每个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人,并且基于该确定来调整置信数据。

Speech recognition analysis via identification information

The present invention describes a method and system for speech recognition analysis via identification information. The disclosed embodiments involve using identity information to aid in the avoidance of false positive speech recognition events in speech recognition systems. One embodiment provides a method, the method includes receiving data for speech recognition, the speech recognition data including speech segments, identified by determining the signal from the microphone array and the identification of the origin of the acoustic speech segment position position data, and the data including confidence and recognition confidence values. Receiving image data included with each image of the location of the visual location information. The acoustic position data is compared with the visual position data to determine whether the identified speech segment is derived from the person in the field of view of the image sensor and to adjust the confidence data based on the determination.

【技术实现步骤摘要】

本专利技术涉及语音识别技术,尤其涉及一种经由标识信息的语音识别分析的方法和 系统。
技术介绍
语音识别技术允许计算设备的用户经由语音命令而非经由键盘或其他外围设备 输入设备来作出输入。不同的语音识别系统共有的一个困难在于将预期语音输入与其他所 接收的声音辨别开来,这些声音包括但不限于,背景噪声、背景语音、以及来自当前系统用 户的不旨在成为输入的语音。提出了将预期语音输入与其他声音辨别开来的各种方法。例如,某些语音输入系 统在接受任何语音并将其作为输入进行分析之前要求用户说出一个特定命令,诸如“开始 收听”。然而,这些系统可能仍然易于受到随机地匹配所识别的语音模式并因此被解释为输 入的背景噪声的影响。这种“假肯定”可能导致语音识别系统执行用户未期望的动作,或者 甚至在没有用户在场的情况下执行动作。
技术实现思路
因此,本文公开了涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语 音识别事件的各种实施例。例如,一个所公开的实施例提供了一种操作语音识别输入系统 的方法。该方法包括接收语音识别数据,该语音识别数据包括所识别的语音段、经由来自麦 克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识 别置信值的置信数据,并且还接收包括与位于图像传感器的视场中的每一个人的位置有关 的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语 音段是否源自图像传感器的视场中的人。该方法还包括基于所识别的语音段是否被确定为 源自图像传感器的视场中的人来调整置信数据。提供本
技术实现思路
是为了以简化的形式介绍将在以下具体实施方式中进一步描述 的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不 旨在用于限定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本专利技术的 任一部分中提及的任何或所有缺点的实现。附图说明图1示出视频游戏环境形式的示例语音输入环境的一个实施例。图2示出包括语音识别输入系统的计算系统的一个实施例的框图。图3示出描绘了使用身份数据来分析语音输入的方法的一个实施例的流程图。图4示出描绘了使用身份数据来分析语音输入的方法的另一实施例的流程图。图5示出用于使用身份数据来分析语音输入的系统的一个实施例的框图。图6示出了深度图像的帧的一个实施例的一部分的示意性描绘。具体实施例方式本公开涉及避免语音识别输入系统中的假肯定语音识别。此外,所公开的各实施 例还可以在语音识别系统环境中存在多个用户的情况下帮助确保语音识别事件源自所期 望的用户。例如,在多个用户正在玩知识竞赛(game show)主题的视频游戏并且该游戏要求 特定人回答特定问题的情况下,所公开的各实施例可以帮助阻塞其他用户喊叫的回答。可 以理解,可以使用该语音识别输入系统来实现对任意合适的设备的语音输入。各示例包括 但不限于,交互式娱乐系统,诸如视频游戏控制台、数字录像机、数字电视机和其他媒体播 放器以及将这些功能中的两个或更多进行组合的设备。图1示出交互式娱乐系统10形式的示例语音识别使用环境,该交互式娱乐系统 10可以用于播放各种各样不同的游戏、播放一个或多个不同的媒体类型、和/或控制或操 纵非游戏应用程序。交互式娱乐系统10包括被配置成在显示器104上显示图像的控制台 102,显示器104被示为可以用于向一个或多个游戏玩家呈现游戏视觉形象的电视机。可以 理解,图1中示出的示例实施例是出于说明的目的而呈现的,并且不旨在以任何方式进行 限制。娱乐系统10还包括具有深度感测照相机和麦克风阵列的输入设备100。深度感测 照相机可以用于在视觉上监视娱乐系统10的一个或多个用户,而麦克风阵列可以用于由 接收玩家作出的语音命令。使用麦克风阵列而非单个麦克风允许从音频数据中确定关于声 音(例如,玩家说话)的源的位置的信息。输入设备100所获取的数据允许玩家在不使用手持式控制器或其他远程设备的 情况下作出输入。相反,语音输入、移动和/或其组合可以被娱乐系统10解释为可以用于 影响娱乐系统10正在执行的游戏的控制命令。游戏玩家108的移动和语音输入几乎可以被解释为任何类型的游戏控制命令。例 如,图1中示出的示例场景示出游戏玩家108正在玩正由交互式娱乐系统10执行的拳击游 戏。游戏系统使用电视机104来在视觉上向游戏玩家108呈现拳击对手110。此外,娱乐系 统10还在视觉上呈现游戏玩家108用移动来控制的玩家化身112。例如,游戏玩家108可 以在物理空间中挥重拳来作为对玩家化身112在游戏空间中挥重拳的指令。娱乐系统10 和输入设备110可以用于识别和分析物理空间中游戏玩家108的重拳,从而使得该重拳可 以被解释为使得游戏化身112在游戏空间中挥重拳的游戏控制命令。还可以使用语音命令 来控制玩的各方面。此外,某些移动和语音输入可以被解释为用作除了控制游戏化身112之外的目的 的控制命令。例如,玩家可使用移动和/或语音命令来结束、暂停或保存游戏,选择级别,查 看高分,与朋友通信等。所示出的拳击场景是作为示例来提供的,但决不意味着以任何方式 进行限制。相反,所示出的场景旨在展示可以在不背离本公开的范围的情况下应用于各种 各样不同的应用程序的一般概念。图2示出了图1的实施例的框图。如上所述,输入设备100包括用于检测玩家运 动的图像传感器,诸如深度感测照相机202,并且还包括检测来自玩家的语音输入的麦克风 阵列204。深度感测照相机202可以利用用于确定照相机的视场中的目标对象(例如,玩 家)的深度的任何合适的机制,包括但不限于结构化光机制。同样,麦克风阵列204可以具5有任何合适数量和排列的麦克风。例如,在一个具体实施例中,麦克风阵列204可以具有四 个麦克风,这四个麦克风在空间上被排列为避免来自源的声音实例在全部四个麦克风处进 行破坏性干扰。在其他实施例中,输入设备100可以包括除了深度感测照相机之外的图像 传感器。输入设备100还包括包含可由处理器208执行以执行各种功能的指令的存储器 206,这些功能与从深度感测照相机202和麦克风阵列204接收输入、处理这些输入、和/或 将这些输入传递到控制台102有关。这些功能的各实施例将在下文中更详细地描述。控制 台102同样包括其上存储有可由处理器212执行以执行与娱乐系统10的操作有关的各种 功能的指令的存储器210,这些功能的各实施例将在下文中更详细地描述。如上所述,语音识别系统可能难以将预期语音输入与诸如背景噪声、背景语音 (即,不是源自当前用户的语音)等其他所接收的声音辨别开来。此外,语音识别系统可能 还难以区分来自当前系统用户的、不旨在成为输入的语音。涉及用户发出诸如“开始收听” 等特定语音命令来发起语音识别会话的当前方法可能遭受其中背景噪声随机地匹配这种 语音模式的假肯定。另一种方法涉及利用照相机来检测当前用户的凝视以确定来自用户的 语音是否旨在作为语音输入。然而,该方法依赖于在系统使用期间用户处在预期位置,并且 因此在用户四处移动、用户可能在照相机的视野之外、和/或没有用户在场的动态使用环 境中可能无效。因此,图3示出描绘了用于操作语音识别输入系统的方法300的一个实施例的流 程图。方法300包括在步骤302处接收语音识别数据本文档来自技高网
...

【技术保护点】
1.一种在包括麦克风阵列和图像传感器的计算系统中操作语音识别输入系统的方法(300),所述方法包括:接收(302)语音识别数据,所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列的信号确定的与所述所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据;接收(312)包括与位于所述图像传感器的视场中的每个人的位置有关的视觉位置信息的图像数据;将所述声学位置数据与所述视觉位置数据进行比较(316)来确定所述所识别的语音段是否源自所述图像传感器的所述视场中的人;以及基于所述所识别的语音段是否被确定为源自所述图像传感器的所述视场中的人来调整(318)所述置信数据。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:J·弗莱克斯D·霍金斯C·克莱恩M·S·德尼斯T·莱瓦德A·M·瓦塞尔D·麦克凯
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1