This paper describes systems, methods, devices, and other techniques for determining the dialog state corresponding to the voice input and based on the determined dialog state bias language model. In some implementations, the method includes receiving audio data indicating voice input at a computing system and determining a particular conversational state corresponding to the voice input from a plurality of conversational states. You can identify a set of n elements associated with a particular dialog state corresponding to voice input. In response to an n-ary set that identifies a specific conversational state associated with a voice input, the language model can be biased by adjusting the probability score of the n-ary indication in the n-ary set of the language model. Speech input can be transcribed using an adjusted language model.
【技术实现步骤摘要】
【国外来华专利技术】确定语言模型的对话状态
本文档总体上涉及基于计算机的语音识别,并且更具体地涉及基于对话状态偏置(biasing)语言模型。
技术介绍
除了键入输入之外或替代键入输入,计算设备越来越多地提供有接收口头用户输入的能力。例如,语音助理应用可以基于语音助理和用户之间的提示以及口头响应的多阶段对话来确定要对设备执行的任务。同样,一些设备上的网页浏览器和其他应用被安排在表单字段中接收语音输入,以避免用户需要在字段中键入输入。由用户提供给计算设备的语音输入可以由语音识别器处理。语音识别器可以包括被共同配置为将语音输入转录为文本的诸如声学模型和语言模型的组件。
技术实现思路
本文描述了用于确定与语音输入相对应的对话状态并基于所确定的对话状态对语言模型进行偏置的系统、方法、设备以及其他技术。在一些实现方式中,语音识别系统可以自动学习对话状态集合以及针对每个相应的对话状态的相应的语言模型偏置模式。可以在没有用户预定义的情况下确定对话状态和偏置模式。本文描述的主题的一些实现方式包括计算机实现的方法。方法可以包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与语音输入相对应的特定对话状态。可以标识与对应于语音输入的特定对话状态相关联的n元(n-grams)集合。n元集合可以至少基于与对话状态相对应的历史语音输入中频繁发生的n元集合中的n元,与特定对话状态相关联。响应于标识与对应于语音输入的特定对话状态相关联的n元集合,可以通过调整语言模型对n元集合中的n元指示的概率得分来偏置语言模型。可以使用调整的语言模型来转录语音输入。这些和其他实现方式可以可选地包括一个或多个以下 ...
【技术保护点】
1.一种计算机实现的方法,包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与对应于所述语音输入相对应的特定对话状态;标识与对应于所述语音输入的所述特定对话状态相关联的n元集合,其中所述n元集合至少基于所述n元集合中的、在与对话状态相对应的历史语音输入中频繁发生的n元,而与所述特定对话状态相关联;响应于标识与对应于语音输入的所述特定对话状态相关联的n元集合,通过调整语言模型对所述n元集合中的n元指示的概率得分来偏置语言模型;以及使用调整的语言模型转录所述语音输入。
【技术特征摘要】
【国外来华专利技术】2016.03.16 US 15/071,6511.一种计算机实现的方法,包括:在计算系统处接收指示语音输入的音频数据;从多个对话状态中确定与对应于所述语音输入相对应的特定对话状态;标识与对应于所述语音输入的所述特定对话状态相关联的n元集合,其中所述n元集合至少基于所述n元集合中的、在与对话状态相对应的历史语音输入中频繁发生的n元,而与所述特定对话状态相关联;响应于标识与对应于语音输入的所述特定对话状态相关联的n元集合,通过调整语言模型对所述n元集合中的n元指示的概率得分来偏置语言模型;以及使用调整的语言模型转录所述语音输入。2.根据权利要求1所述的计算机实现的方法,其中所述多个对话状态分别指示涉及特定任务的、与计算设备进行的用户语音交互的多个阶段。3.根据权利要求1或2所述的计算机实现的方法,还包括:在计算系统处接收第二语音输入;从所述多个对话状态中确定对应于所述第二语音输入的第二特定对话状态;以及标识与对应于所述第二语音输入的所述第二特定对话状态相关联的第二n元集合,其中第二n元集合不同于与对应于所述语音输入的所述特定对话状态相关联的n元集合。4.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定与所述语音输入相对应的所述特定对话状态包括:从所述多个对话状态中标识与在所述语音输入之前的第二语音输入相对应的第二特定对话状态,其中所述语音输入和所述第二语音输入均涉及同一任务;以及基于指示所述多个对话状态之中的可能在所述第二特定对话状态之后发生的一个或多个对话状态的数据,确定与所述语音输入相对应的所述特定对话状态。5.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定与所述语音输入相对应的所述特定对话状态包括:生成所述语音输入的转录;以及确定在所述语音输入的转录中发生的一个或多个n元以及与所述特定对话状态相关联的n元集合中的一个或多个n元之间的匹配。6.根据前述权利要求中的任一项所述的计算机实现的方法,其中确定所述匹配包括确定在所述语音输入的转录中发生的一个或多个n元以及与所述特定对话状态相关联的n元集合中的一个或多个n元之间的语义关系。7.根据前述权利要求中的任一项所述的计算机实现的方法,还包括接收指示与所述语音输入相关联的语境的数据,其中确定与所述语音输入相对应的所述特定对话状态包括:基于与所述语音输入相关联的语境标识所述特定对话状态。8.根据权利要求7所述的计算机实现的方法,其中:与所述语音输入相关联的语境包括表征在所述语音输入被接收时、在接收所述语音输入的计算设备处的用户界面的显示的数据,以及基于与所述语音输入相关联的语境标识所述特定对话状态包括:基于表征在接收语音输入时接收语音输入的计算设备处的用户界面的显示的数据,标识所述特定对话状态。9.根据前述权利要求中的任一项所述的计算机实现的方法,还包括在计算系统处接收指示所述语音输入所导向的计算设备处的应用的应用标识符,其中所述多个对话状态涉及用于所述语音输入所导向的应用的应用特定任务。10.一种计算机实现的方法,包括:获得对应于多状态对话中的不同状态的语音输入的多个转录;对于所述多个转录中的每个转录,标识在所述转录中出现的n元集合;通过向多个转录组中的每个组分配所述多个转录中的、所标识的n元集合被确定为相关的相应转录子集,生成所述多个转录组;基于所述多个转录组,确定指示在多状态对话中发生的多个对话状态以及与每个对话...
【专利技术属性】
技术研发人员:P阿莱克西克,PJM门吉巴,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。