混合模型语音识别制造技术

技术编号:19145854 阅读:16 留言:0更新日期:2018-10-13 09:34
公开了一种混合模型语音识别。一种方法包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码。该方法还包括:通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括:通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括:确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括:基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。

Mixed model speech recognition

A hybrid model speech recognition is presented. One method includes accessing audio data generated by a computing device based on audio input from a user, which encodes one or more user discourses. The method also includes generating a first transcript of the utterance by performing a speech recognition on the audio data using a first speech recognizer using a language model based on user-specific data. The method also includes generating a second transcript of the speech by performing a speech recognition on the audio data using a second speech recognizer that uses a language model independent of user-specific data. The method also includes determining that the second transcription of the utterance includes terms from a predetermined set of one or more terms. The method also includes providing the output of the first transcription of the utterance based on determining that the second transcription of the utterance includes terms from a predetermined set of one or more terms.

【技术实现步骤摘要】
混合模型语音识别本申请是分案申请,原案的申请号是201380041641.5,申请日是2013年6月26日,专利技术名称是“混合模型语音识别”。相关申请的交叉引用本申请要求于2013年3月15日提交的美国申请第13/838,379号和于2012年6月26日提交的美国申请第61/664,324号的权益,其通过参考被合并。
本申请涉及语音识别。
技术介绍
本说明书涉及语音识别。移动设备的用户可以通过例如在键盘上打字或者向麦克风中讲话来输入文本。在话音输入的情境中,自动搜索识别(ASR)引擎可以被用来处理语音形式的输入。
技术实现思路
一般而言,本说明书中所描述的主题的一个创新性方面可以用如下方法来实现,该方法包括用于提供声音转录的计算机实现的方法。该方法包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码。该方法还包括:通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括:通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括:确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括:基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。一般而言,本说明书中所描述的主题的另一创新性方面可以用如下系统来实现,该系统包括用于提供声音转录的系统。该系统包括一个或多个计算机以及存储指令的一个或多个存储设备,该指令在由一个或多个计算机执行时可操作以使得该一个或多个计算机执行操作,该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。一般而言,本说明书中所描述的主题的另一创新性方面可以用如下计算机可读介质来实现,该计算机可读介质包括存储软件的计算机可读介质,该软件包括由一个或多个计算机可执行的指令,该指令在这样执行时使得一个或多个计算机执行操作。该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录,其中该第一语音识别器采用基于用户特定数据而被开发的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据而被开发的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。本说明书中所描述的主题的一个或多个实现的细节在下面的说明书和附图中阐述。该主题的其他潜在特征、方面和优点根据说明书、附图和权利要求将变得清楚。附图说明图1是采用不同能力的两个语音识别器的系统的示例的图。图2是示出用于执行语音识别的过程的示例的流程图。图3是示出用于执行语音识别的另一过程的示例的流程图。图4是示出在执行语音识别时的通信和操作的示例的泳道图。图5是示出屏幕截图的示例的图。图6示出了通用计算设备和通用移动计算设备的示例。在各个附图中,相似的附图标记指代相似的元件。具体实施方式图1是采用不同能力的两个语音识别器以例如增强语音识别精度的系统100的示例的图。图1还图示在状态(a)至状态(i)期间系统100内的数据流、以及在状态(i)期间在系统100的移动设备102上显示的用户界面101。简而言之,系统100在客户端侧语音识别器和服务器侧语音识别器二者上处理用户话语,这可以帮助解决由话语中的用户特定词语或名称造成的歧义。例如,客户端侧语音识别器可以使用通过使用用户特定数据诸如用户的联系人列表中的联系人姓名而被开发的有限语言模型,而服务器侧语音识别器可以使用独立于这样的用户特定数据而被开发的大型词汇语言模型。在这种情况下,对这两种语音识别器的结果的比较或组合可以被用来在话语涉及用户特定术语时增加精度。更具体地,该系统100包括移动设备102,该移动设备102通过一个或多个网络106与服务器104和ASR引擎105进行通信。ASR引擎105可以在服务器104上被实现或者在单独的计算设备上被实现并且通过一个或多个网络106与服务器104和移动设备102进行通信。服务器104可以是搜索引擎、口述引擎、对话系统、或者使用转录语音或调用使用转录语音的软件应用以执行某些动作的任何其他引擎或系统。一般而言,以下描述使用用于服务器104的搜索引擎的示例。该网络106可以包括无线蜂窝网络、无线局域网(WLAN)或Wi-Fi网络、第三代(3G)或第四代(4G)移动电信网络、专用网络诸如内联网、公共网络诸如因特网、或者上述各项的任何适当组合。状态(a)至状态(i)描绘在系统100执行示例过程时发生的数据流。状态(a)至状态(i)可以是时间顺序的状态,或者其可以按照与图示的顺序不同的顺序发生。移动设备102可以是例如蜂窝电话、智能电话、平本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据;通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器,生成个性化转录,所述自动语音识别器具有词汇,所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语,所述个性化转录包括未被包含在所述基于云的自动语音识别器的所述词汇中的一个或多个术语;和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出,所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件,以及(ii)一个或多个搜索结果,所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对所述话语的错误转录而生成的。

【技术特征摘要】
2012.06.26 US 61/664,324;2013.03.15 US 13/838,3791.一种计算机实现的方法,包括:通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据;通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器,生成个性化转录,所述自动语音识别器具有词汇,所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语,所述个性化转录包括未被包含在所述基于云的自动语音识别器的所述词汇中的一个或多个术语;和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出,所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件,以及(ii)一个或多个搜索结果,所述一个或多个搜索结果是基于由所述基于云的自动语音识别器对所述话语的错误转录而生成的。2.根据权利要求1所述的方法,包括:通过所述基于云的自动语音识别器生成所述话语的错误转录。3.根据权利要求1所述的方法,其中,未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括未同步到云的联系人姓名。4.根据权利要求1所述的方法,其中,未被包含在所述基于云的自动语音识别器的所述词汇中的所述一个或多个术语包括安装在所述移动计算设备上的应用的名称。5.根据权利要求1所述的方法,包括:通过与所述基于云的自动语音识别器相关联的搜索引擎,使用所述话语的错误转录的一个或多个术语作为查询术语来生成所述一个或多个搜索结果。6.根据权利要求1所述的方法,其中,所述基于云的自动语音识别器的所述词汇多于在所述移动计算设备上实现的所述自动语音识别器所使用的词汇。7.根据权利要求1所述的方法,其中,在确定与所述个性化转录相关联的语音识别置信度评分不满足最小置信度阈值之后,提供用于发起与所述个性化转录相关联的所述话音动作的所述控件以用于输出。8.一种包括一个或多个计算机和一个或多个存储设备的系统,所述存储设备存储指令,所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述系统包括:通过移动计算设备或数字助理设备接收与用户的话语相对应的音频数据;通过在所述移动计算设备或所述数字助理设备上实现的自动语音识别器,生成个性化转录,所述自动语音识别器具有词汇,所述词汇包括未被包含在基于云的自动语音识别器的词汇中的一个或多个术语,所述个性化转录包括未被包含在所述基于云的自动语音识别器的词汇中的一个或多个术语;和提供搜索结果页面以用于由所述移动计算设备或所述数字助理设备输出,所述搜索结果页面包括(i)用于发起与所述个性化转录相关联的话音动作的控件,以及(ii)一个或多个搜索结果,所述一个或多个搜索结果是基于由所述基于云的自动...

【专利技术属性】
技术研发人员:A·H·格伦斯坦P·阿列克西克
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1