自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言制造技术

技术编号:39258929 阅读:9 留言:0更新日期:2023-10-30 12:10
本公开涉及自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言。实施方式涉及确定用于经由用于与自动化助理交互的自动化助理接口接收的口头话语的语音辨识的语言。实施方式可使得能够与所述自动化助理进行多语言交互,而无需用户显式地指定要用于每个交互的语言。对针对特定语言的语音辨识模型的选择可基于在用户与自动化助理之间的对话会话期间展示的一个或多个交互特性。这样的交互特性可包括预期用户输入类型、预期用户输入持续时间、用于针对用户响应进行监视的持续时间和/或提供的用户响应的实际持续时间。时间和/或提供的用户响应的实际持续时间。时间和/或提供的用户响应的实际持续时间。

【技术实现步骤摘要】
自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
[0001]分案说明
[0002]本申请属于申请日为2018年4月16日的中国专利技术专利申请201880039579.9的分案申请。

技术介绍

[0003]人类可以用在本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“谈话代理”等)的交互式软件应用来参与人类与计算机对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,所述口头自然语言输入可以在一些情况下被转换成文本并然后处理。自动化助理通过提供响应用户接口输出来对请求做出响应,所述响应用户接口输出可包括可听的和/或可视的用户接口输出。
[0004]如上面所提及的,自动化助理可将与用户的口头话语相对应的音频数据转换成对应的文本(或其它语义表示)。例如,可基于经由客户端设备的一个或多个麦克风对用户的口头话语的检测来生成音频数据,所述客户端设备包括用于使得用户能够与自动化助理交互的助理接口。自动化助理可包括语音辨识引擎,所述语音辨识引擎试图辨识在音频数据中捕获的口头话语的各种特性,诸如通过口头话语所产生的声音(例如,音素)、所产生的声音的顺序、语音的节奏、声调等。另外,语音辨识引擎可识别通过这样的特性所表示的文本单词或短语。文本然后可由自动化助理在确定针对口头话语的响应内容时进一步处理(例如,使用自然语言理解(NLU)引擎和/或对话状态引擎)。语音辨识引擎可由客户端设备和/或由远离客户端设备但是与客户端设备进行网络通信的一个或多个自动化助理组件实现。
[0005]然而,许多语音辨识引擎被配置成辨识仅单一语言的语音。对于多语言用户和/或住户,这样的单一语言语音辨识引擎可能不是令人满意的,并且可使自动化助理在以不是由这些语音辨识引擎所支持的单一语言的附加语言接收到口头话语时失败和/或提供错误输出。这可致使自动化助理不可用,并且/或者导致对计算和/或网络资源的过度使用。对计算和/或网络资源的过度使用可以是当自动化助理失败或者提供错误输出时用户需要提供作为所支持的单一语言的进一步口头话语的结果。这样的进一步口头话语必须附加地由对应的客户端设备和/或远程自动化助理组件处理,从而导致对各种资源的附加使用。
[0006]其它语音辨识引擎可以被配置成辨识多种语言的语音,但是要求用户显式地指定在给定时间在语音辨识中应该使用多种语言中的哪一种。例如,其它语音辨识引擎中的一些可能要求用户手动地指定在特定客户端设备处接收的所有口头话语的语音辨识中要利用的默认语言。为了将默认语言改变为另一语言,可能要求用户与图形和/或可听接口交互以显式地更改默认语言。这种交互可在接口的渲染、对经由接口提供的用户的输入的处理等中导致对计算和/或网络资源的过度使用。另外,情况可能常常是用户在提供当前不是默认语言的口头话语之前忘记改变默认语言。如上所述,这可致使自动化助理不可用并且/或
者导致对计算和/或网络资源的过度使用。

技术实现思路

[0007]本文描述的实施方式涉及用于自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言的系统、方法和装置。在一些实施方式中,对使用给定语言的口头话语的语音辨识可包括:使用针对给定语言的一种或多种语音辨识模型来处理捕获口头话语的音频数据以生成与口头话语相对应并采用给定语言的文本。如本文所描述的,多个语音辨识模型可以是可访问的以用于语音辨识,并且这些语音辨识模型中的每一个均可被配置用于多种语言中的对应的语言。例如,第一语音辨识模型可被配置用于基于处理包括英语口头话语的音频数据来生成英语文本,第二语音辨识模型可被配置用于基于处理包括法语口头话语的音频数据来生成法语文本,第三语音辨识模型可被配置用于基于处理包括西班牙语口头话语的音频数据来生成西班牙语文本等。
[0008]本文描述的一些实施方式可利用各种技术来选择仅要在给定用户的给定口头话语的语音辨识中利用的语言的子集。例如,给定用户可与指派给其相应的自动化助理的多种候选语言或对自动化助理可访问的用户简档相关联。多种候选语言可由用户手动地指派和/或基于由用户跨越一个或多个平台对候选语言的过去使用被自动地指派。如本文所描述的,选择仅语言的子集可基于例如针对特定用户或用户简档指派给多种候选语言的概率度量。概率度量可基于对多种候选语言的过去使用,并且每个概率度量可对应于一个或多个交互特性(例如,每个基于用户与自动化助理之间的即时交互)。
[0009]作为一个特定示例,指派给用户简档的多种语言中的单一特定语言可针对一个或多个交互特性或参数(例如,来自用户的响应的持续时间、在对自动化助理做出响应时的延迟的长度、预期输入类型或要提供给自动化助理的语音的类型)具有指派的概率度量,其中这些概率度量指示该单一特定语言正被给定用户说的很高的可能性。基于所指派的概率度量,可选择单一特定语言,并且使用仅针对单一语言的语音辨识模型来执行语音辨识。执行语音辨识可产生单一语言的对应的文本,其然后可由自动化助理的附加组件在生成响应于给定口头话语的内容时进一步处理。然后可提供响应的内容以供在客户端设备处渲染以用于呈现给用户。响应的内容可以可选地采用相同的单一语言,或者被提供来导致用相同的单一语言渲染。
[0010]作为另一特定示例,指派给用户简档的三种或更多种候选语言中的两种特定语言可针对一个或多个交互特性具有对应的指派的概率度量,其中这些概率度量各自指示至少两种特定语言中的对应的语言正在被给定用户说的可能性。基于所指派的概率度量,可选择两种特定语言,并且使用仅针对这两种特定语言的语音辨识模型来执行给定口头话语的语音辨识。对于未能满足阈值的一个或多个当前场境参数,基于其对应的指派的概率度量,其它候选语言可能不被选择用于语音辨识。
[0011]在用户的口头话语的语音辨识中仅选择用户要利用的候选语言的子集的这些和其它实施方式可保存设备(例如,执行语音辨识的客户端设备和/或远程自动化助理组件)的各种资源,因为在执行语音辨识时利用仅对应于语言的子集的语音辨识模型。另外,利用针对语言的概率度量和/或针对生成的文本的量度的这些和其它实施方式可增加自动化助理基于适当的文本来生成响应内容的可能性。这可导致改进的自动化助理,并且还可保存
各种资源,因为它减轻自动化助理基于使用不是正在口头话语中说的语言来辨识文本而提供错误响应内容的风险。这种减轻错误响应内容的风险防止在试图纠正错误响应内容时对进一步用户接口输入的进一步资源密集检测(以及对该输入的处理)。
[0012]如上面所提及并在本文中别处描述的,在许多实施方式中在口头话语的语音辨识中利用两种或更多种(例如,全部与用户简档相关联的)候选语言。然而,基于仅来自针对候选语言中的单一语言的语音辨识模型的输出来确定要响应于口头话语而提供的响应内容。在确定要响应于口头话语而提供的内容时确定要利用哪一个输出可基于例如监视持续时间、输入持续时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种由一个或多个处理器实现的方法,所述方法包括:接收与用户的口头话语相对应的音频数据,所述音频数据基于由客户端设备进行的对所述口头话语的检测;使用与第一语言相对应的第一语音辨识模型来处理所述音频数据;基于使用所述第一语音辨识模型来处理所述音频数据来确定响应于所述口头话语的内容;针对来自所述用户的附加口头输入进行监视;在所述监视期间接收与附加口头话语相对应的附加音频数据,所述附加音频数据基于由所述客户端设备进行的对所述附加口头话语的检测;基于接收到所述附加音频数据,确定所述附加口头话语是由附加用户提供的;基于所述附加口头话语是由所述附加用户提供的,访问与附加用户相对应的用户简档;基于访问与所述附加用户相对应的所述用户简档,确定所述用户简档提供所述附加用户与第二语言之间的对应性;和基于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性:在处理所述附加音频数据时使用所述第二语言的第二语音辨识模型;和使所述客户端设备基于使用所述第二语音辨识模型对所述附加音频数据的所述处理来渲染进一步响应内容。2.根据权利要求1所述的方法,进一步包括:响应于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性,以所述二语言生成所述响应内容。3.根据权利要求1所述的方法,其中,在处理所述附加音频数据时使用所述第二语音辨识模型是进一步基于自从接收到与所述口头话语相对应的所述音频数据以来发生的一个或多个交互特性。4.根据权利要求3所述的方法,其中,所述一个或多个交互特性包括以下中的一个或多个:所述附加口头话语的监视持续时间、输入持续时间和预期输入类型。5.根据权利要求3所述的方法,其中,所述一个或多个交互特性包括以下中的两个或更多个:所述附加口头话语的监视持续时间、输入持续时间和预期输入类型。6.根据权利要求1所述的方法,其中,基于确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性,在处理所述附加音频数据时使用所述第二语音辨识模型包括:确定在所述用户简档中指派给所述第一语音辨识模型的第一概率度量,以及在所述用户简档中指派给所述第二语音辨识模式的第二概率度量;和基于所述第二概率度量指示比所述第一概率度量更高的概率,确定所述用户简档提供所述附加用户与所述第二语言之间的所述对应性。7.根据权利要求6所述的方法,其中,所述第一概率度量是基于所述附加用户对所述第一语言的过去使用,并且其中,所述第二...

【专利技术属性】
技术研发人员:赵璞升迭戈
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1