当前位置: 首页 > 专利查询>微软公司专利>正文

集成的本地和基于云的语音识别制造技术

技术编号:8272087 阅读:180 留言:0更新日期:2013-01-31 04:32
本发明专利技术描述了集成的本地和基于云的语音识别。描述了一种用于将本地语音识别与基于云的语音识别集成以提供高效的自然用户界面的系统。在一些实施例中,计算设备确定与环境中的特定人相关联的方向,并生成与该方向相关联的音频记录。该计算设备然后对该音频记录执行本地语音识别以检测该特定人说出的第一话语并检测该第一话语中的一个或多个关键字。该第一话语可通过对音频记录应用话音活动检测技术来检测。该第一话语以及一个或多个关键字随后被传送至服务器,该服务器可标识第一话语中与该一个或多个关键字相关联的语音,并基于所标识的语音来使一种或多种语音识别技术进行适应。

【技术实现步骤摘要】
本专利技术涉及语音识别,尤其涉及本地和基于云的语音识别的集成。
技术介绍
语音识别技术可用于将说出的单词或词组转换成文本。基于统计数据的语音识别技术通常利用声学建模和/或语言建模。声学模型可通过以下操作来创建取得各种语言音频记录(例如,各种单词或词组),将各种音频记录与文本转录相关联,然后创建构成各种单词或词组中的每一个的声音的统计表示。语言模型尝试捕捉特定语言的特性并预测语音序列中的下一个单词或词组。语音模型可包括特定语言中的单词频率和/或单词序列的概率
技术实现思路
描述了用于将本地语音识别与基于云的语音识别集成以提供高效的自然用户界面的技术。在一些实施例中,计算设备确定与环境中的特定人相关联的方向并生成与该方向相关联的音频记录,其中源自该方向的声音被放大,而源自其他方向的声音被抑制。该计算设备然后对该音频记录执行本地语音识别以检测该特定人说出的第一话语并检测该第一话语中的一个或多个关键字。该第一话语可通过对音频记录应用话音活动检测技术来检测。该第一话语以及一个或多个关键字随后被传送至服务器,该服务器可标识第一话语中与该一个或多个关键字相关联的语音,并基于所标识的语音来使一种或多种语音识别技术进行适应。一个实施例包括从与第一环境相关联的多个话筒获取一个或多个声音,确定该第一环境中与一个或多个人相关联的一个或多个方向,以及基于该一个或多个声音来生成一个或多个音频记录,其中该一个或多个音频记录中的每一个都与该一个或多个方向中的不同方向相关联。该方法还包括对该一个或多个音频记录中的每一个执行本地语音识别,包括检测第一话语和检测该第一话语中的一个或多个关键字。该方法还包括将该第一话语以及该一个或多个关键字传送到第二计算设备以及从该第二计算设备接收基于该第一话语的第一响应。一个实施例包括捕捉设备以及一个或多个处理器。该捕捉设备包括多个话筒。该捕捉设备从与第一环境相关联的多个话筒获取一个或多个声音。该一个或多个处理器确定该第一环境中与一个或多个人相关联的一个或多个方向。该一个或多个处理器基于该一个或多个声音来生成一个或多个音频记录,其中该一个或多个音频记录中的每一个都与该一个或多个方向中的不同方向相关联。该一个或多个处理器检测该一个或多个音频记录中的第一音频记录中的第一话语,并检测该第一话语中的一个或多个关键字。该一个或多个处理器将该第一话语以及该一个或多个关键字传送到第二计算设备,该第二计算设备基于该一个或多个关键字来检测该第一话语中的一个或多个单词。该一个或多个处理器从该第二计算设备接收基于该第一话语的第一响应。提供本
技术实现思路
以便以简化形式介绍将在以下具体实施例中进一步描述的一些概念。本
技术实现思路
并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图简述图I是可在其中实现所公开的技术的联网计算环境的一个实施例的框图。图2描绘了目标检测和跟踪系统的一个实施例,用户正在玩拳击游戏。图3描绘了目标检测和跟踪系统以及与该目标检测和跟踪系统相关联的捕捉设备的视野内的环境的一个实施例。 图4示出了包括捕捉设备和计算环境的计算系统的一个实施例。图5A是描述集成本地和基于云的语音识别的过程的一个实施例的流程图。图5B是描述获取一个或多个音频记录的过程的一个实施例的流程图。图5C是描述获取一个或多个音频记录的过程的一个实施例的流程图。图是描述获取一个或多个音频记录的过程的一个实施例的流程图。图5E是描述生成一个或多个音频记录的过程的一个实施例的流程图。图6是描述执行基于云的语音识别的过程的一个实施例的流程图。图7是描述执行本地语音识别的过程的一个实施例的流程图。图8是游戏和媒体系统的实施例的框图。图9是计算系统环境的实施例的框图。具体实施例描述了用于将本地语音识别与基于云的语音识别集成以提供高效的自然用户界面的技术。在一些实施例中,计算设备确定与环境中的特定人相关联的方向并生成与该方向相关联的音频记录,其中源自该方向的声音被放大,而源自其他方向的声音被抑制。该计算设备然后对该音频记录执行本地语音识别以检测该特定人说出的第一话语并检测该第一话语中的一个或多个关键字。该第一话语可通过对音频记录应用语音活动检测技术来检测。该第一话语以及一个或多个关键字随后被传送至服务器,该服务器可标识第一话语中与该一个或多个关键字相关联的语音,并基于所标识的语音来使一种或多种语音识别技术进行适应。将本地语音识别与基于云的语音识别集成有若干好处。一个好处是利用云计算的更强大的处理能力和存储容量。例如,与通常受限于能力和/或形状因子约束的本地语音识别相比,基于云的语音识别可利用大规模机器学习和更大的声学模型。在基于云的语音识别之前执行本地语音识别还节省网络带宽,因为本地语音识别器可过滤发送到云以供处理的不必要或非预期请求。例如,本地语音识别器可以只在检测到包括在本地关键字文件(即,预先确定的词典)中的一个或多个关键字时才启动基于云的语音识别器。基于云的语音识别的另一个好处是能够利用具有最新语法(例如,与特定电视节目的最新一集相关联的已更新的关键字)的大型动态目录。图I是可在其中实现所公开的技术的联网计算环境100的一个实施例的框图。联网计算环境100包括多个计算设备,所述计算设备通过一个或多个网络180互连。所述一个或多个网络180允许特定计算设备连接到另一计算设备以及与其通信。所描绘的计算设备包括计算环境12、移动设备11、计算机13和应用服务器150。在一些实施例中,所述多个计算设备可以包括未示出的其他计算设备。在一些实施例中,所述多个计算设备可以包括比图I所示计算设备的数目更多或更少的计算设备。所述一个或多个网络180可以包括诸如企业专用网络之类的安全网络、诸如无线开放式网络之类的不安全网络、局域网(LAN)、广域网(WAN)、以及因特网。所述一个或多个网络180中的每个网络都可以包括集线器、网桥、路由器、交换机、以及有线传输介质,比如有线网络或直接有线连接。诸如应用服务器150之类的服务器可以允许客户机从该服务器下载信息(例如,文本、音频、图像和视频文件)或者执行与存储在该服务器上的特定信息相关的搜索查询。一般而言,“服务器”可以包括在客户机-服务器关系中充当主机的硬件设备、或者与一个或多个客户机共享资源或为所述客户机执行工作的软件进程。客户机-服务器关系下的计算设备之间的通信可以由客户机通过向服务器发送要求访问特定资源或执行特定工作的请求来发起。服务器随后可以执行所请求的动作并且将响应发送回客户机。计算环境12的一个实施例包括网络接口 145、处理器146、以及存储器147,所有这些都彼此通信。网络接口 145允许计算环境12连接到一个或多个网络180。网络接口 145可以包括无线网络接口、调制解调器、和/或有线网络接口。处理器146允许计算环境12执行存储在存储器147中的计算机可读指令以执行在此讨论的过程。在一个示例中,计算环境12可包括游戏控制台。联网计算环境100可以为一个或多个计算设备提供云计算环境。云计算是指基于因特网的计算,其中共享的资源、软件和/或信息通过因特网(或其他全局网络)被按需提供给一个或多个计算设备。基于在计算机网络图中使用云图来将因特网描绘成对其所表示的底层基础设施的本文档来自技高网
...

【技术保护点】
一种用于执行语音识别的方法,包括:从多个话筒获取(502)多个音频信号,所述多个音频信号中的每一个都与所述多个话筒中的不同话筒相关联,所述多个音频信号与第一环境相关联;确定(507)所述第一环境中的一个或多个方向,所述第一环境包括一个或多个人,所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联;基于所述多个音频信号来生成(508)一个或多个音频记录,所述一个或多个音频记录中的第一音频记录通过以下操作生成:对所述多个音频信号应用音频信号处理技术以使得源自所述一个或多个方向中的第一方向的声音被放大,同时源自一个或多个其他方向的其他声音被削弱;对所述多个音频记录中的每一个执行(512)本地语音识别,所述执行本地语音识别包括检测第一话语以及检测所述第一话语中的一个或多个关键字,所述第一话语通过对所述一个或多个音频记录中的第一音频记录应用一种或多种语音检测技术来检测;将所述第一话语以及所述一个或多个关键字传送(516)到第二计算设备,所述第二计算设备对所述第一话语执行语音识别技术,所述语音识别技术检测所述第一话语中的一个或多个单词;以及从所述第二计算设备接收(518)基于所述第一话语的第一响应。...

【技术特征摘要】
2011.09.02 US 13/224,7781.一种用于执行语音识别的方法,包括 从多个话筒获取(502)多个音频信号,所述多个音频信号中的每一个都与所述多个话筒中的不同话筒相关联,所述多个音频信号与第一环境相关联; 确定(507 )所述第一环境中的一个或多个方向,所述第一环境包括一个或多个人,所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联; 基于所述多个音频信号来生成(508)—个或多个音频记录,所述一个或多个音频记录中的第一音频记录通过以下操作生成对所述多个音频信号应用音频信号处理技术以使得源自所述一个或多个方向中的第一方向的声音被放大,同时源自一个或多个其他方向的其他声音被削弱; 对所述多个音频记录中的每一个执行(512)本地语音识别,所述执行本地语音识别包括检测第一话语以及检测所述第一话语中的一个或多个关键字,所述第一话语通过对所述一个或多个音频记录中的第一音频记录应用一种或多种语音检测技术来检测; 将所述第一话语以及所述一个或多个关键字传送(516)到第二计算设备,所述第二计算设备对所述第一话语执行语音识别技术,所述语音识别技术检测所述第一话语中的一个或多个单词;以及 从所述第二计算设备接收(518)基于所述第一话语的第一响应。2.如权利要求I所述的方法,其特征在于 所述第二计算设备标识与如在所述第一话语中发音的一个或多个关键字相关联的一个或多个语音,所述第二计算设备基于所述一个或多个语音来使所述语音识别技术进行适应;以及 所述第一响应包括与所述第一话语中由所述第二计算设备检测到的一个或多个单词相关联的文本消息。3.如权利要求1-2中的任一项所述的方法,其特征在于 所述传送所述第一话语以及所述一个或多个关键字包括传送与所述第一话语相关联的音频文件以及将与所述一个或多个关键字相关联的文本信息传送到所述第二计算设备;以及 所述第一话语通过对所述第一音频记录应用一个或多个话音活动检测技术来检测。4.如权利要求1-3中任一项所述的方法,其特征在于,还包括 将与所述一个或多个关键字相关联的一个或多个位置指针传送到所述第二计算设备,所述检测所述第一话语中的一个或多个关键字包括确定所述第一话语中的所述一个或多个位置指针。5.如权利要求1-4中任一项所述的方法,其特征在于,还包括 在所述确定一个或多个方向之前执行对所述多个音频...

【专利技术属性】
技术研发人员:T·M·苏摩L·宋M·H·金C·R·海涅曼D·H·霍金斯
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利