促进以多种语言与自动化助理的端到端沟通制造技术

技术编号:29293450 阅读:12 留言:0更新日期:2021-07-17 00:40
本公开涉及促进以多种语言与自动化助理的端到端沟通。这里描述的技术涉及促进与自动化助理的端到端多语言沟通。在各种实施方式中,可以基于以第一语言的话音输入生成语音识别输出。可以基于语音识别输出识别第一语言意图并且履行第一语言意图以便以第一语言生成第一自然语言输出候选。语音识别输出的至少一部分可以被翻译成第二语言以生成至少部分翻译,然后可以使用该至少部分翻译来识别履行的第二语言意图以便以第二语言生成第二自然语言输出候选。可以为第一和第二自然语言输出候选确定分数,并且基于分数,可以选择自然语言输出用于呈现。输出用于呈现。输出用于呈现。

【技术实现步骤摘要】
促进以多种语言与自动化助理的端到端沟通
[0001]分案说明
[0002]本申请属于申请日为2018年4月16日的中国专利技术专利申请 201880001823.2的分案申请。


[0003]本公开涉及促进以多种语言与自动化助理的端到端沟通。

技术介绍

[0004]人类可以与这里称为“自动化助理(automated assistants)”(也 称为“聊天机器人(chatbots)”,“交互式个人助理(interactive personalassistants)”,“智能个人助理(intelligent personal assistants)”,“个 人语音助理(personal voice assistants)”,“会话代理人(conversationalagents)”等)的交互式软件应用进行人机对话。例如,人(当其与自 动化助理交互时可以被称为“用户(users)”)可以使用自由形式的 自然语言输入来提供命令、查询和/或请求(这里统称为“查询 (queries)”),自由形式的自然语言输入可以是被转换为文本然后被 处理的声音话语和/或键入的自由形式的自然语言输入。通常使用预定 的声音话语(例如,“OK Assistant”)来调用自动化助理,并且经常 仅对在调用短语之后的那些声音话语执行各种类型的处理,诸如语音 到文本处理和/或自然语言处理。
[0005]自动化助理擅长以一些广泛使用的语言例如英语与用户沟通,但 是不太能够以其他语言进行沟通。然而,用于配置自动化助理以新语 言进行沟通的传统技术是资源密集型的。对于每种新语言,可能需要 生成新的触发语法(即,用于调用自动化助理的特定动作的单词或短 语),识别以新语言的查询意图(需要针对不同语言的不同自然语言 处理组件),并以新语言生成可理解的自然语言输出。除了该挑战之 外,每种语言都有无数的特性(例如,形态丰富、支持性、性别中立 等),并且可能很难找到能够以特定语言构建这些系统的语言专家。

技术实现思路

[0006]本文描述了用于通过利用以特定语言进行处理来促进以各种语言 的人机对话的端到端处理的技术。换句话说,这里描述的技术增加了 自动化助理的语言覆盖范围。在各种实施方式中,可以使用多个管线 来处理提供给自动化助理的用户查询。例如,在一些实施方式中,可 以采用第一管线来尝试以查询的原始语言处理用户的查询。可以采用 第二管线将用户的查询翻译成自动化助理更好处理的不同语言,并使 用所述翻译来识别和履行用户的意图。经由第二管线返回的自然语言 输出可能会或可能不会被翻译回用户的原始语言。在各种实施方式中, 可以例如基于置信度分数对经由多个管线生成的自然语言输出进行排 序,并且可以向用户呈现排序最高的自然语言输出。
[0007]可能希望以用户说出的语言来保留用户的原始查询的部分。例如, 在一些实施方
式中,可以在用户的原始查询中(或者更具体地,在从 用户的原始话音输入生成的语音识别输出中)识别槽(slot)值。这些 槽值可能不需要翻译,在某些情况下,翻译它们可能会导致错误。例 如,假设用户说出短语“What is Akash

s phone number?(Akash的电话 号码是什么?)”,名称“Akash”可以翻译成具有与用户意图无关的 特定含义(例如,天空)的英语单词。然而,如果单词“Akash”可以 被识别为槽值并由此以用户说出的语言进行保存,则可以正确地翻译 用户查询的剩余部分,以便可以采取适当的响应动作。
[0008]大多数语言具有各种口语(colloquialism)。此外,可以在自然语 言输出生成过程中构建口语,以便自动化助理可以提供听起来更“人 性化”的输出。例如,假设用户以当前尚未得到良好支持的语言询问 天气。用户的查询可以被翻译成更广泛支持的语言,例如英语,然后 可以识别和履行用户的意图。然而,对于像这样的常见查询,很可能 非正式(例如,“像人类的”)自然语言输出可用作直接自然语言输 出的替选。例如,假设今天将热且晴天。自动化助理不是简单地生成 诸如“It will be 90degrees and sunny.(将是90度和晴天)”的自然语 言输出,而是可以选择例如手动生成的自然语言输出以听起来更人性 化,例如“Better grab your sunglasses because it

s gonna be a scorcher. (最好带上你的太阳镜,因为将是个大热天。)”。将这种听起来口 语的自然语言输出翻译回用户的母语可能会产生对用户毫无意义的结 果。因此,在一些实施方式中,例如因为其包括手动生成的口语、俚 语等可能难以翻译的自然语言输出可以用更有可能适当地翻译成用户 的母语的更直接的自然语言输出替换。
[0009]在一些实施方式中,提供了一种由一个或多个处理器执行的方法, 包括:接收用户在客户端设备的输入组件处以第一语言提供的话音输 入;从所述话音输入生成语音识别输出,其中,所述语音识别输出是 以所述第一语言;基于所述语音识别输出识别所述用户的第一语言意 图;履行所述第一语言意图以生成第一履行信息;基于所述第一履行 信息,以所述第一语言生成第一自然语言输出候选;将所述语音识别 输出的至少一部分从所述第一语言翻译成第二语言,以生成所述语音 识别输出的至少部分翻译;基于所述至少部分翻译识别所述用户的第 二语言意图;履行所述第二语言意图以生成第二履行信息;基于所述 第二履行信息,以所述第二语言生成第二自然语言输出候选;确定所 述第一和第二自然语言输出候选的分数;基于所述分数,从所述第一 和第二自然语言输出候选中选择要呈现给所述用户的自然语言输出; 以及使所述客户端设备在所述客户端设备的输出组件处呈现所选择的 自然语言输出。
[0010]本文中公开的技术的这些和其他实施方式可以可选地包括以下特 征中的一个或多个。
[0011]在各种实施方式中,该方法还可以包括以所述第一语言生成响应 于所述第二语言意图的第三自然语言输出候选。在一些这样的实施方 式中,确定所述分数还可以包括确定所述第一、第二和第三内容的分 数。
[0012]在各种实施方式中,该方法还可以包括在评分之前将所述第二自 然语言输出候选翻译成所述第一语言。在各种实施方式中,翻译所述 第二自然语言输出候选可以基于机器学习模型,所述机器学习模型是 使用在人机对话期间由一个或多个自动化助理提供的一个或多个自然 语言输出日志来训练的。
[0013]在各种实施方式中,翻译以生成所述语音识别输出的所述至少部 分翻译基于机
器学习模型,所述机器学习模型是使用在人机对话期间 提交给一个或多个自动化助理的一个或多个用户查询日志来训练的。 在各种实施方式中,在各种实施方式中,评分可以是基于指派给所述 第一和第二自然语言意图的相应置信度分数。在各种实施方式中,评 分是可以基于获得所述第一和第二自然语言输出候选所需的时间。
[0014]在各种实施方式中,该方法还可以包括识别所述语音识别输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种由一个或多个处理器实现的方法,包括:接收用户在客户端设备的输入组件处以第一语言提供的话音输入;从所述话音输入生成语音识别输出,其中,所述语音识别输出为所述第一语言;识别所述语音识别输出中的槽值;将所述语音识别输出的至少一部分从所述第一语言翻译成第二语言,以生成所述语音识别输出的至少部分翻译,其中,所述翻译包括将所述槽值保留为所述第一语言;基于所述至少部分翻译以及所保留的槽值来识别所述用户的第二语言意图;履行所述第二语言意图以生成履行信息;基于所述履行信息,以所述第一语言或所述第二语言生成自然语言输出候选;使得所述客户端设备在所述客户端设备的输出组件处呈现所述自然语言输出。2.根据权利要求1所述的方法,其中,生成所述自然语言输出候选包括:以所述第一语言生成第一自然语言输出候选;以所述第二语言生成第二自然语言输出候选;以及确定所述第一自然语言输出候选和所述第二自然语言输出候选的分数;其中,所述使得包括基于所述分数来选择将在所述客户端设备的所述输出组件处呈现的所述第一自然语言输出或所述第二自然语言输出。3.根据权利要求2所述的方法,还包括在评分之前将所述第二自然语言输出候选翻译成所述第一语言。4.根据权利要求3所述的方法,其中,翻译所述第二自然语言输出候选是基于机器学习模型,所述机器学习模型是使用在人机对话期间由一个或多个自动化助理提供的一个或多个自然语言输出日志来训练的。5.根据权利要求2所述的方法,其中,所述分数是基于获得所述第一自然语言输出候选和所述第二自然语言输出候选所需的时间来确定的。6.根据权利要求2所述的方法,其中,所述分数是基于指派给所述第一自然语言意图和所述第二自然语言意图的相应置信度分数来确定的。7.根据权利要求1所述的方法,其中,所述翻译是基于机器学习模型的,所述机器学习模型是使用在人机对话期间提交给一个或多个自动化助理的一个或多个用户查询日志来训练的。8.一种由一个或多个处理器实现的方法,包括:接收用户在客户端设备的输入组件处以第一语言提供的话音输入;从所述话音输入生成语音识别输出,其中,所述语音识别输出为所述第一语言;基于所述语音识别输出来识别所述用户的第一语言意图;确定所述第一语言意图的第一置信度度量;基于所述第一置信度度量,选择性地履行所述第一语言意图或第二语言意图,所述第二语言意图从所述语音识别输出到所述第二语言的至少部分翻译中识别。9.根据权利要求8所述的方法,还包括:将所述语音识别输出的至少一部分从所述第一语言翻译成所述第二语言,以生成所述语音识...

【专利技术属性】
技术研发人员:詹姆斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1