集成的本地和基于云的语音识别制造技术

技术编号：8272087 阅读：185 留言：0更新日期：2013-01-31 04:32

本发明专利技术描述了集成的本地和基于云的语音识别。描述了一种用于将本地语音识别与基于云的语音识别集成以提供高效的自然用户界面的系统。在一些实施例中，计算设备确定与环境中的特定人相关联的方向，并生成与该方向相关联的音频记录。该计算设备然后对该音频记录执行本地语音识别以检测该特定人说出的第一话语并检测该第一话语中的一个或多个关键字。该第一话语可通过对音频记录应用话音活动检测技术来检测。该第一话语以及一个或多个关键字随后被传送至服务器，该服务器可标识第一话语中与该一个或多个关键字相关联的语音，并基于所标识的语音来使一种或多种语音识别技术进行适应。

全部详细技术资料下载

【技术实现步骤摘要】
本专利技术涉及语音识别，尤其涉及本地和基于云的语音识别的集成。
技术介绍
语音识别技术可用于将说出的单词或词组转换成文本。基于统计数据的语音识别技术通常利用声学建模和/或语言建模。声学模型可通过以下操作来创建取得各种语言音频记录(例如，各种单词或词组)，将各种音频记录与文本转录相关联，然后创建构成各种单词或词组中的每一个的声音的统计表示。语言模型尝试捕捉特定语言的特性并预测语音序列中的下一个单词或词组。语音模型可包括特定语言中的单词频率和/或单词序列的概率
技术实现思路
描述了用于将本地语音识别与基于云的语音识别集成以提供高效的自然用户界面的技术。在一些实施例中，计算设备确定与环境中的特定人相关联的方向并生成与该方向相关联的音频记录，其中源自该方向的声音被放大，而源自其他方向的声音被抑制。该计算设备然后对该音频记录执行本地语音识别以检测该特定人说出的第一话语并检测该第一话语中的一个或多个关键字。该第一话语可通过对音频记录应用话音活动检测技术来检测。该第一话语以及一个或多个关键字随后被传送至服务器，该服务器可标识第一话语中与该一个或多个关键字相关联的语音，并基于所标识的语音...

【技术保护点】
一种用于执行语音识别的方法，包括：从多个话筒获取（502）多个音频信号，所述多个音频信号中的每一个都与所述多个话筒中的不同话筒相关联，所述多个音频信号与第一环境相关联；确定（507）所述第一环境中的一个或多个方向，所述第一环境包括一个或多个人，所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联；基于所述多个音频信号来生成（508）一个或多个音频记录，所述一个或多个音频记录中的第一音频记录通过以下操作生成：对所述多个音频信号应用音频信号处理技术以使得源自所述一个或多个方向中的第一方向的声音被放大，同时源自一个或多个其他方向的其他声音被削弱；对所述多个音频记录中的每一个执行（512）...

【技术特征摘要】
2011.09.02 US 13/224,7781.一种用于执行语音识别的方法，包括从多个话筒获取(502)多个音频信号，所述多个音频信号中的每一个都与所述多个话筒中的不同话筒相关联，所述多个音频信号与第一环境相关联；确定(507 )所述第一环境中的一个或多个方向，所述第一环境包括一个或多个人，所述一个或多个方向中的每一个都与所述一个或多个人中的不同人相关联；基于所述多个音频信号来生成(508)—个或多个音频记录，所述一个或多个音频记录中的第一音频记录通过以下操作生成对所述多个音频信号应用音频信号处理技术以使得源自所述一个或多个方向中的第一方向的声音被放大，同时源自一个或多个其他方向的其他声音被削弱；对所述多个音频记录中的每一个执行(512)本地语音识别，所述执行本地语音识别包括检测第一话语以及检测所述第一话语中的一个或多个关键字，所述第一话语通过对所述一个或多个音频记录中的第一音频记录应用一种或多种语音检测技术来检测；将所述第一话语以及所述一个或多个关键字传送(516)到第二计算设备，所述第二计算设备对所述第一话语执行语音识别技术，所述语音识别技术检测所述第一话语中的一个或多个单词；以及从所述第二计算设备接收(518)基于所述第一话语的第一响应。2.如权利要求I所述的方法，其特征在于所述第二计算设备标识与如在所述第一话语中发音的一个或多个关键字相关联的一个或多个语音，所述第二计算设备基于所述一个或多个语音来使所述语音识别技术进行适应；以及所述第一响应包括与所述第一话语中由所述第二计算设备检测到的一个或多个单词相关联的文本消息。3.如权利要求1-2中的任一项所述的方法，其特征在于所述传送所述第一话语以及所述一个或多个关键字包括传送与所述第一话语相关联的音频文件以及将与所述一个或多个关键字相关联的文本信息传送到所述第二计算设备；以及所述第一话语通过对所述第一音频记录应用一个或多个话音活动检测技术来检测。4.如权利要求1-3中任一项所述的方法，其特征在于，还包括将与所述一个或多个关键字相关联的一个或多个位置指针传送到所述第二计算设备，所述检测所述第一话语中的一个或多个关键字包括确定所述第一话语中的所述一个或多个位置指针。5.如权利要求1-4中任一项所述的方法，其特征在于，还包括在所述确定一个或多个方向之前执行对所述多个音频...

【专利技术属性】
技术研发人员：T·M·苏摩，L·宋，M·H·金，C·R·海涅曼，D·H·霍金斯，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人