确定语言模型的对话状态制造技术

技术编号:18792319 阅读:20 留言:0更新日期:2018-08-29 10:31
本文描述了用于确定与语音输入相对应的对话状态并基于所确定的对话状态偏置语言模型的系统、方法、设备以及其他技术。在一些实现方式中,方法包括在计算系统处接收指示语音输入的音频数据,并从多个对话状态中确定与语音输入相对应的特定对话状态。可以标识与对应于语音输入的特定对话状态相关联的n元集合。响应于标识与对应于语音输入的特定对话状态相关联的n元集合,可以通过调整语言模型对n元集合中的n元指示的概率得分来偏置语言模型。可以使用调整的语言模型转录语音输入。

Determining the dialog state of the language model

This paper describes systems, methods, devices, and other techniques for determining the dialog state corresponding to the voice input and based on the determined dialog state bias language model. In some implementations, the method includes receiving audio data indicating voice input at a computing system and determining a particular conversational state corresponding to the voice input from a plurality of conversational states. You can identify a set of n elements associated with a particular dialog state corresponding to voice input. In response to an n-ary set that identifies a specific conversational state associated with a voice input, the language model can be biased by adjusting the probability score of the n-ary indication in the n-ary set of the language model. Speech input can be transcribed using an adjusted language model.

【技术实现步骤摘要】
【国外来华专利技术】确定语言模型的对话状态
本文档总体上涉及基于计算机的语音识别,并且更具体地涉及基于对话状态偏置(biasing)语言模型。
技术介绍
除了键入输入之外或替代键入输入,计算设备越来越多地提供有接收口头用户输入的能力。例如,语音助理应用可以基于语音助理和用户之间的提示以及口头响应的多阶段对话来确定要对设备执行的任务。同样,一些设备上的网页浏览器和其他应用被安排在表单字段中接收语音输入,以避免用户需要在字段中键入输入。由用户提供给计算设备的语音输入可以由语音识别器处理。语音识别器可以包括被共同配置为将语音输入转录为文本的诸如声学模型和语言模型的组件。
技术实现思路
本文描述了用于确定与语音输入相对应的对话状态并基于所确定的对话状态对语言模型进行偏置的系统、方法、设备以及其他技术。在一些实现方式中,语音识别系统可以自动学习对话状态集合以及针对每个相应的对话状态的相应的语言模型偏置模式。可以在没有用户预定义的情况下确定对话状态和偏置模式。本文描述的主题的一些实现方式包括计算机实现的方法。方法可以包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与语音输入相对应的特定对话状态。可以标识与对应于语音输入的特定对话状态相关联的n元(n-grams)集合。n元集合可以至少基于与对话状态相对应的历史语音输入中频繁发生的n元集合中的n元,与特定对话状态相关联。响应于标识与对应于语音输入的特定对话状态相关联的n元集合,可以通过调整语言模型对n元集合中的n元指示的概率得分来偏置语言模型。可以使用调整的语言模型来转录语音输入。这些和其他实现方式可以可选地包括一个或多个以下特征。多个对话状态可以分别指示涉及特定任务的计算设备与用户语音交互的多个阶段。计算系统可以接收第二语音输入,并且可以从多个对话状态中确定与第二语音输入相对应的第二特定对话状态。可以标识与对应于第二语音输入的第二特定对话状态相关联的第二n元集合。第二n元集合可以不同于与对应于语音输入的特定对话状态相关联的n元集合。确定与语音输入相对应的特定对话状态可以包括:从多个对话状态中标识与语音输入之前的第二语音输入相对应的第二特定对话状态,其中语音输入和第二语音输入各自涉及同一任务;以及基于指示可能在第二特定对话状态之后发生的多个对话状态中的一个或多个对话状态的数据,确定与语音输入相对应的特定对话状态。确定与语音输入相对应的特定对话状态可以包括:生成语音输入的转录以及确定在语音输入的转录中发生的一个或多个n元和与特定对话状态相关联的n元集合中的一个或多个n元之间的匹配。确定匹配可以包括确定在语音输入的转录中发生的一个或多个n元和与特定对话状态相关联的n元集合中的一个或多个n元之间的语义关系。可以接收指示与语音输入相关联的语境(context)的数据。确定与语音输入相对应的特定对话状态可以包括基于与语音输入相关联的语境来标识特定对话状态。与语音输入相关联的语境可以包括表征在接收语音输入时接收语音输入的计算设备处的用户界面的显示的数据。基于与语音输入相关联的语境标识特定对话状态可以包括:基于表征在接收语音输入时接收语音输入的计算设备处的用户界面的显示的数据、标识特定对话状态。可以在计算系统处接收指示语音输入所导向的计算设备处的应用的应用标识符。多个对话状态可以涉及用于语音输入所导向的应用的应用特定任务。本文描述的主题的一些实现方式包括另一种计算机实现的方法。方法可以包括获得与多状态对话中的不同状态相对应的语音输入的多个转录。对于多个转录中的每个转录,可以标识出现在转录中的n元集合。可以通过向每个组分配所标识的n元集合被确定为与之相关的多个转录中的、转录的相应子集,生成多个转录组。可以基于多个转录组,确定指示在多状态对话中发生的多个对话状态以及与每个对话状态相关联的相应n元集合的模型。可以提供确定的模型以在语音识别中偏置语言模型。这些和其他实现方式可以可选地包括一个或多个以下特征。可以通过将多个转录组中的每个组分配给多个对话状态中的相应对话状态来确定多个对话状态,使得多个对话状态中的每个对应于转录组的相应子集与对于多个对话状态中的每个的转录组的相应子集彼此不同。可以基于在对应于对话状态的转录组的相应子集中的转录中发生的所标识的n元集合,选择与多个对话状态中的每个对话状态相关联的相应的n元集合。多个对话状态中的第一对话状态可以与包括转录的两个或更多个组的转录组的第一子集相对应。生成多个转录组可以包括形成被确定为在语义上彼此相似的转录组。计算系统可以接收指示语音输入中的至少一些在多状态对话中被提交的顺序的数据。可以至少基于指示语音输入中的至少一些在多状态对话中被提交的顺序的数据,确定多个对话状态中的对话状态的序列。对于每个相应的对话状态,该序列信息指示跟随相应对话状态的一个或多个其他对话状态或者在相应对话状态之前的一个或多个其他对话状态。语音输入的多个转录可以包括:对于多状态对话中的多个对话状态中的每个相应对话状态、与多个对话状态中的相应对话状态相对应的语音输入的多个转录。计算系统可以接收指示与对应于多个转录中的至少一些的语音输入相关联的相应语境的数据。生成多个转录组可以包括:进一步基于指示与对应于多个转录中的至少一些的语音输入相关联的相应语境的数据,对转录进行分组。与对应于多个转录中的第一转录的第一语音输入相关联的相应语境可以包括:表征在接收第一语音输入时接收第一语音输入的计算设备处的用户界面的显示的数据。本文描述的主题的一些实现方式可以包括计算系统。计算系统可以包括一个或多个处理器以及一个或多个计算机可读介质。计算机可读介质上存储有指令,指令在被执行时引起执行操作,操作包括:接收指示语音输入的音频数据;从多个对话状态中确定与语音输入相对应的特定对话状态;标识与对应于语音输入的特定对话状态相关联的n元集合,其中n元集合至少基于与对话状态相对应的历史语音输入中频繁发生的n元集合中的n元、与特定对话状态相关联;响应于标识与对应于语音输入的特定对话状态相关联的n元集合,通过增加通过n元集合中的n元的语言模型指示的概率得分来调整语言模型;以及使用调整的语言模型转录语音输入。在一些实现方式中,本文描述的技术在特定情况下可以实现以下优点中的一个或多个。语音识别器可以使用基于被确定为与语音输入相对应的对话状态偏置的语言模型来生成语音输入的更精确的转录。此外,在人机对话中发生的对话状态可以通过计算系统自主确定,使得应用开发者不需要在他们相应的应用中跟踪对话状态,或将对话状态标识符提供给转录语音输入用于相应的应用的语音识别系统。在一些实现方式中,计算系统可以基于对历史语音输入和转录的分析来确定与多个对话状态相关联的相应的n元集合。基于针对给定转录请求检测到哪种对话状态,可以使用n元集合以不同的方式偏置语言模型。有益的是,在一些实现方式中,这些技术可以消除应用开发者手动将与每个对话状态相关联的n元集合提供给语音识别系统的需要。附图说明图1描绘了用于使用已经基于与语音输入相关联的识别的对话状态而偏置(biased)的语言模型将语音输入转录为文本的示例处理的概念性系统流程图。图2描绘了使用偏置的语言模型将语音输入转录为文本的示例处理的第二概念性系统流程图。基于与系统基于该语音输入本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与对应于所述语音输入相对应的特定对话状态;标识与对应于所述语音输入的所述特定对话状态相关联的n元集合,其中所述n元集合至少基于所述n元集合中的、在与对话状态相对应的历史语音输入中频繁发生的n元,而与所述特定对话状态相关联;响应于标识与对应于语音输入的所述特定对话状态相关联的n元集合,通过调整语言模型对所述n元集合中的n元指示的概率得分来偏置语言模型;以及使用调整的语言模型转录所述语音输入。

【技术特征摘要】
【国外来华专利技术】2016.03.16 US 15/071,6511.一种计算机实现的方法,包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与对应于所述语音输入相对应的特定对话状态;标识与对应于所述语音输入的所述特定对话状态相关联的n元集合,其中所述n元集合至少基于所述n元集合中的、在与对话状态相对应的历史语音输入中频繁发生的n元,而与所述特定对话状态相关联;响应于标识与对应于语音输入的所述特定对话状态相关联的n元集合,通过调整语言模型对所述n元集合中的n元指示的概率得分来偏置语言模型;以及使用调整的语言模型转录所述语音输入。2.根据权利要求1所述的计算机实现的方法,其中所述多个对话状态分别指示涉及特定任务的、与计算设备进行的用户语音交互的多个阶段。3.根据权利要求1或2所述的计算机实现的方法,还包括:在计算系统处接收第二语音输入;从所述多个对话状态中确定对应于所述第二语音输入的第二特定对话状态;以及标识与对应于所述第二语音输入的所述第二特定对话状态相关联的第二n元集合,其中第二n元集合不同于与对应于所述语音输入的所述特定对话状态相关联的n元集合。4.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定与所述语音输入相对应的所述特定对话状态包括:从所述多个对话状态中标识与在所述语音输入之前的第二语音输入相对应的第二特定对话状态,其中所述语音输入和所述第二语音输入均涉及同一任务;以及基于指示所述多个对话状态之中的可能在所述第二特定对话状态之后发生的一个或多个对话状态的数据,确定与所述语音输入相对应的所述特定对话状态。5.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定与所述语音输入相对应的所述特定对话状态包括:生成所述语音输入的转录;以及确定在所述语音输入的转录中发生的一个或多个n元以及与所述特定对话状态相关联的n元集合中的一个或多个n元之间的匹配。6.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定所述匹配包括确定在所述语音输入的转录中发生的一个或多个n元以及与所述特定对话状态相关联的n元集合中的一个或多个n元之间的语义关系。7.根据前述权利要求中的任一项所述的计算机实现的方法,还包括接收指示与所述语音输入相关联的语境的数据,其中确定与所述语音输入相对应的所述特定对话状态包括:基于与所述语音输入相关联的语境标识所述特定对话状态。8.根据权利要求7所述的计算机实现的方法,其中:与所述语音输入相关联的语境包括表征在所述语音输入被接收时、在接收所述语音输入的计算设备处的用户界面的显示的数据,以及基于与所述语音输入相关联的语境标识所述特定对话状态包括:基于表征在接收语音输入时接收语音输入的计算设备处的用户界面的显示的数据,标识所述特定对话状态。9.根据前述权利要求中的任一项所述的计算机实现的方法,还包括在计算系统处接收指示所述语音输入所导向的计算设备处的应用的应用标识符,其中所述多个对话状态涉及用于所述语音输入所导向的应用的应用特定任务。10.一种计算机实现的方法,包括:获得对应于多状态对话中的不同状态的语音输入的多个转录;对于所述多个转录中的每个转录,标识在所述转录中出现的n元集合;通过向多个转录组中的每个组分配所述多个转录中的、所标识的n元集合被确定为相关的相应转录子集,生成所述多个转录组;基于所述多个转录组,确定指示在多状态对话中发生的多个对话状态以及与每个对话...

【专利技术属性】
技术研发人员:P阿莱克西克PJM门吉巴
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1