混合模型语音识别制造技术

技术编号：19145854 阅读：16 留言：0更新日期：2018-10-13 09:34

公开了一种混合模型语音识别。一种方法包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码。该方法还包括：通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录，其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括：通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括：确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括：基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。

Mixed model speech recognition

A hybrid model speech recognition is presented. One method includes accessing audio data generated by a computing device based on audio input from a user, which encodes one or more user discourses. The method also includes generating a first transcript of the utterance by performing a speech recognition on the audio data using a first speech recognizer using a language model based on user-specific data. The method also includes generating a second transcript of the speech by performing a speech recognition on the audio data using a second speech recognizer that uses a language model independent of user-specific data. The method also includes determining that the second transcription of the utterance includes terms from a predetermined set of one or more terms. The method also includes providing the output of the first transcription of the utterance based on determining that the second transcription of the utterance includes terms from a predetermined set of one or more terms.

全部详细技术资料下载

【技术实现步骤摘要】
混合模型语音识别本申请是分案申请，原案的申请号是201380041641.5，申请日是2013年6月26日，专利技术名称是“混合模型语音识别”。相关申请的交叉引用本申请要求于2013年3月15日提交的美国申请第13/838,379号和于2012年6月26日提交的美国申请第61/664,324号的权益，其通过参考被合并。
本申请涉及语音识别。
技术介绍
本说明书涉及语音识别。移动设备的用户可以通过例如在键盘上打字或者向麦克风中讲话来输入文本。在话音输入的情境中，自动搜索识别(ASR)引擎可以被用来处理语音形式的输入。
技术实现思路
一般而言，本说明书中所描述的主题的一个创新性方面可以用如下方法来实现，该方法包括用于提供声音转录的计算机实现的方法。该方法包括：访问由计算设备基于来自用户的音频输入所生成的音频数据，该音频数据对一个或多个用户话语进行编码。该方法还包括：通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录，其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括：通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录，其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括：确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括：基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语，提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模...

【技术保护点】
1.一种计算机实现的方法，包括：通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据；通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器，生成个性化转录，所述自动语音识别器具有词汇，所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语，所述个性化转录包括未被包含在所述基于云的自动语音识别器的所述词汇中的一个或多个术语；和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出，所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件，以及(ii)一个或多个搜索结果，所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对所述话语的错误转录而生成的。

【技术特征摘要】
2012.06.26 US 61/664,324;2013.03.15 US 13/838,3791.一种计算机实现的方法，包括：通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据；通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器，生成个性化转录，所述自动语音识别器具有词汇，所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语，所述个性化转录包括未被包含在所述基于云的自动语音识别器的所述词汇中的一个或多个术语；和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出，所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件，以及(ii)一个或多个搜索结果，所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对所述话语的错误转录而生成的。2.根据权利要求1所述的方法，包括：通过所述基于云的自动语音识别器生成所述话语的错误转录。3.根据权利要求1所述的方法，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括未同步到云的联系人姓名。4.根据权利要求1所述的方法，其中，未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括安装在所述移动计算设备上的应用的名称。5.根据权利要求1所述的方法，包括：通过与所述基于云的自动语音识别器相关联的搜索引擎，使用所述话语的错误转录的一个或多个术语作为查询术语来生成所述一个或多个搜索结果。6.根据权利要求1所述的方法，其中，所述基于云的自动语音识别器的所述词汇多于在所述移动计算设备上实现的所述自动语音识别器所使用的词汇。7.根据权利要求1所述的方法，其中，在确定与所述个性化转录相关联的语音识别置信度评分不满足最小置信度阈值之后，提供用于发起与所述个性化转录相关联的所述话音动作的所述控件以用于输出。8.一种包括一个或多个计算机和一个或多个存储设备的系统，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述系统包括：通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据；通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器，生成个性化转录，所述自动语音识别器具有词汇，所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语，所述个性化转录包括未被包含在所述基于云的自动语音识别器的词汇中的一个或多个术语；和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出，所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件，以及(ii)一个或多个搜索结果，所述一个或多个搜索结果是基于由所述基于云的自动...

【专利技术属性】
技术研发人员：A·H·格伦斯坦，P·阿列克西克，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人