在话音机器人和人类之间的对应对话期间解析唯一个人标识符制造技术

技术编号:36737588 阅读:25 留言:0更新日期:2023-03-04 10:10
实施方式涉及使得话音机器人利用多个ML层来在话音机器人参与和人类的对应对话的同时解析用于人类的唯一个人标识符。唯一个人标识符可以包括对于人类来说是个人的唯一字母数字字符序列。在一些实施方式中,可以处理与包括唯一个人标识符的口头话语相对应的ASR语音假设,以生成候选唯一个人标识符,可以选择候选唯一个人标识符的给定字母数字字符,并且话音机器人可以利用澄清请求提示人类澄清给定字母数字字符,直到其被预测为对应于用于人类的实际唯一个人标识符为止。唯一个人标识符然后可以用于由话音机器人和/或其它系统执行进一步动作。进一步动作。进一步动作。

【技术实现步骤摘要】
【国外来华专利技术】在话音机器人和人类之间的对应对话期间解析唯一个人标识符

技术介绍

[0001]人类可以利用本文称为“自动化助理”(也被称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人话音助理”、“对话代理”等)的交互式软件应用参与人机对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即,口头话语)向自动化助理提供命令和/或请求,在某些情况下可以将该口头自然语言输入转换为文本,然后对其进行处理。自动化助理通常通过提供响应用户界面输出(例如,可听和/或可视用户界面输出),控制智能设备和/或执行其它动作,来响应命令或请求。
[0002]自动化助理通常在解释和响应用户请求时依赖于组件的流水线。例如,自动语音识别(ASR)引擎可以用于处理对应于口头话语的音频数据,生成用户话语的转录(即,项的序列和/或其它令牌)。然而,在执行ASR时,某些项可能被误识别。当口头话语对应于不可预测和/或词汇之外的项的序列和/或其它令牌时,这种误识别会加剧。例如,电子邮件地址、物理地址、用户名等可以包括字母、数字和/或符号的序列,其对于用户是个人的和有意义的,但是它们经常被ASR误识别。
[0003]由于这种误识别,自动化助理可能浪费地执行用户不希望的动作,或者阻止执行进一步动作。这可以使得用户重复相同的口头话语(这可能再次被误识别)或者使得用户执行一些其它动作,从而延长人机对话和/或使得在人机对话之外消耗另外计算资源。另外地或可替换地,这种误识别可以通过将电子邮件和/或其它电子通信错误地传送到误识别的电子邮件地址、用户名和/或其他个人标识符来使得自动化助理不必要地利用网络资源。这可以引起隐私问题,因为自动化助理可能错误地向不正确的用户传送对用户来说是个人的内容。另外地或可替换地,这种误识别可以使得自动化助理请求人类接管人机对话,从而延长人机对话和/或使得在请求人类接管人机对话时消耗另外计算资源。

技术实现思路

[0004]本文所公开的实施方式涉及使话音机器人利用多个机器学习(ML)层在话音机器人参与和对应人类的对应对话的同时解析用于对应人类的唯一个人标识符。唯一个人标识符可以包括对于人类是个人的唯一字母数字字符序列。唯一个人标识符可以是,例如,电子邮件地址、物理地址、用户名、口令、实体的名称、产品标识符、域名和/或任何其它唯一个人标识符。在一些实施方式中,可以使用多个ML层来处理对应于包括唯一个人标识符的口头话语的一个或多个自动语音识别(ASR)语音假设,以生成一个或多个候选唯一个人标识符。一个或多个候选唯一个人标识符中的每个都可以包括一个或多个对应字母数字字符,每个对应字母数字字符都与对应预测测量相关联。此外,可以基于对应预测测量来选择候选唯一个人标识符的一个或多个对应字母数字字符,并且话音机器人可以生成具有对应澄清请求的一个或多个提示,该对应澄清请求请求关于用于唯一个人标识符的一个或多个对应的字母数字字符的澄清。基于来自人类的对应响应,可以细化一个或多个候选唯一个人标识符。话音机器人可以生成一个或多个另外提示,并且继续细化一个或多个候选唯一个人标
识符,直到预测到给定唯一个人标识符对应于由人类所提供的实际唯一个人标识符为止。给定唯一个人标识符然后可以由话音机器人用于一个或多个进一步动作,诸如利用给定唯一标识符来促进对应对话和/或诸如给定唯一标识符来促进在对应对话之后的另一动作。
[0005]作为一个示例,假设在由人类发起的电话呼叫期间进行人类与话音机器人之间的对应对话,并且该对应对话与公用事业公司(例如,水供应商、燃气和电力供应商、电缆或因特网供应商等)的人类呼叫客户服务相关联。在该示例中,话音机器人可以征求与人的电子邮件地址相对应的唯一个人标识符来验证人类的身份,查找与电子邮件地址相关联的服务,和/或执行由所人类在对应的对话期间所请求的任何其它动作。话音机器人可以使用ASR模型来处理捕获来自人类的并且包括电子邮件地址的口头话语的音频数据,以生成多个ASR语音假设。进一步假设在这个示例中包括人类的电子邮件地址的口头话语是“john and then p@exampleurl.com(john并且然后p@exampleurl.com)”。在该示例中,多个ASR语音假设可以包括用于电子邮件地址的“johnp”部分的“jon and then p(jon并且然后p)”、“john and then p(john并且然后p)”、“jon and then d(jon并且然后d)”、“john and then d(john并且然后d)”的ASR语音假设,和/或其它ASR语音假设。在该示例中,话音机器人可以使用多个ML层来处理一个或多个ASR语音假设,以生成一个或多个候选唯一个人标识符。
[0006]此外,话音机器人可以基于对应预测测量来生成一个或多个提示。例如,话音机器人可以生成提示“and is that john with an h or no h(并且它是具有h或没有h的john)?”。进一步假设人类提供另外口头话语“john with a h(具有h的john)”。在该示例中,话音机器人可以使用ASR模型来处理捕获另外口头话语的另外音频数据,以生成多个另外ASR语音假设,并且话音机器人可以使用多个ML层来处理一个或多个另外语音假设,以细化对应预测测量和/或一个或多个候选唯一个人标识符。在该示例中,话音机器人可以至少更新与字母数字字符“h”相关联的对应预测测量,以指示存在人类的电子邮件地址以字母数字字符“j o h n”的序列开始的高似然性(例如,使用二进制值、概率、对数似然性等)。在这样做时,话音机器人可以将一个或多个候选唯一个人标识符限制为子集,该子集被限制为从字母数字字符“j o h n”的序列开始的那些,从而消除排除字母数字字符“h”的任何候选唯一个人标识符。此外,话音机器人可以生成另外提示(例如,“j o h n and then was that p as in papa or d as in delta(j o h n,并且然后是如在papa中的p,或者如在delta中的d)”),并且继续细化对应预测测量和/或一个或多个候选唯一个人标识符,直到它被预测为对应于人类的电子邮件地址。
[0007]在一些实施方式中,话音机器人可以响应预测到捕获口头话语的音频数据包括唯一个人标识符而使用多个ML层来处理一个或多个ASR语音假设。在那些实施方式的一些版本中,话音机器人可以基于包括由话音机器人先前生成的合成语音的特定合成语音音频数据来预测口头话语包括唯一个人标识符,该特定合成语音已经被提供用于在对应的对话期间呈现给人类。例如,如果话音机器人生成包括请求人类提供唯一个人标识符(例如,“what is your email address(你的电子邮件地址是什么)?”)的合成语音的合成语音音频数据,则话音机器人可以预测口头话语包括唯一个人标识符。在一些另外或可替换实施方式中,话音机器人可以基于使用ASR模型所生成的多个ASR语音假设来预测口头话语是否包括个人标识符。例如,如果多个ASR语音假设中的一个或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个处理器实现的方法,所述方法包括:接收捕获人类的口头话语的音频数据,所述口头话语由话音机器人在所述人类与所述话音机器人之间的对应对话期间被接收;使用自动语音识别ASR模型处理所述音频数据,以生成多个ASR语音假设;以及响应于预测所述口头话语包括唯一个人标识符,所述唯一个人标识符包括对所述人类来说是个人的唯一字母数字字符序列:使用一个或多个ML模型的多个机器学习ML层来处理所述多个ASR语音假设中的一个或多个,以生成一个或多个候选唯一个人标识符,所述一个或多个候选唯一个人标识符中的每个包括与用于所述一个或多个候选唯一个人标识符中的每个的一个或多个对应字母数字字符相关联的对应预测测量;基于与用于所述一个或多个候选唯一个人标识符中的每个的对应字母数字字符中的一个或多个对应字母数字字符相关联的对应预测测量来从所述对应字母数字字符中的一个或多个当中选择一个或多个给定字母数字字符;基于与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量来生成提示,所述提示包括请求所述给定字母数字字符中的一个或多个的澄清的澄清请求;以及使得所述提示被提供以用于呈现给所述人类。2.根据权利要求1所述的方法,还包括:响应于所述提示被提供以用于呈现给所述人类:接收捕获所述人类的另外口头话语的另外音频数据,所述另外口头话语由所述话音机器人在所述对应对话期间被接收;使用所述ASR模型来处理所述另外音频数据以生成多个另外ASR语音假设;以及使用所述多个ML层来处理所述多个另外语音假设中的一个或多个以细化所述给定字母数字字符中的一个或多个。3.根据权利要求2所述的方法,其中,细化所述给定字母数字字符中的一个或多个包括:基于响应于所述澄清请求而接收到的澄清,更新用于被预测为对应于所述唯一个人标识符的所述一个或多个给定字母数字字符的所述对应预测测量。4.根据权利要求2或权利要求3所述的方法,还包括:在所述一个或多个给定字母数字字符被预测为对应于所述人类的所述唯一个人标识符之前:基于与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量来生成一个或多个对应另外提示,所述一个或多个对应另外提示中的每个都包括请求所述给定字母数字字符中的一个或多个的另外澄清的对应另外澄清请求;以及使得所述对应另外提示中的一个或多个被提供以用于呈现给所述人类。5.根据权利要求2至4中的任一项所述的方法,其中,预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符包括:确定与所述给定字母数字字符中的每个相关联的所述对应预测测量满足阈值。6.根据权利要求2至5中的任一项所述的方法,还包括:响应于预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识
符:利用包括所述一个或多个给定字母数字字符的给定唯一个人标识符来促进所述话音机器人与所述人类之间的所述对应对话。7.根据前述权利要求中的任一项所述的方法,其中,生成包括所述澄清请求的所述提示是响应于确定与所述给定字母数字字符中的一个或多个相关联的所述对应预测测量未能满足阈值。8.根据权利要求7所述的方法,其中,生成包括所述澄清请求的所述提示包括:从所述给定字母数字字符中的一个或多个当中识别与未能满足所述阈值的所述对应预测测量相关联的一个或多个特定字母数字字符;以及生成请求关于所述特定字母数字字符中的一个或多个的澄清的所述澄清请求。9.根据前述权利要求中的任一项所述的方法,还包括:响应于预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符:利用包括所述一个或多个给定字母数字字符的给定唯一个人标识符来促进所述话音机器人与所述人类之间的所述对应对话。10.根据权利要求9所述的方法,其中,预测所述一个或多个给定字母数字字符对应于所述人类的所述唯一个人标识符包括:确定与用于所述给定候选唯一个人标识符的所述一个或多个给定字母数字字符中的每个相关联的所述对应预测测量满足阈值。11.根据前述权利要求中的任一项所述的方法,其中,预测所述口头话语包括所述唯一个人标识符包括:基于合成语音音频数据包括先前被提供以用于在所述对应对话期间由所述话音机器人呈现给所述人类的合成语音来预测所述音频数据将包括所述唯一个人标识符。12.根据前述权利要求中的任一项所述的方法,其中,预测所述口头话语包括所述唯一个人标识符包括:基于使用所述ASR模型所生成的所述多个ASR语音假设中的一个或多个来预测所述口头话语包括所述唯一个人标识符。13.根据前述权利要求中的任一项所述的方法,其中,处理所述多个语音假设中的一个或多个以生成所述一个或多个候选唯一个人标识符包括:使用所述多个ML层迭代地处理所述多个ASR语音假设中的每个以迭代地生成用于所述唯一个人标识符的可能性树,所述可能性树包括多个节点和多个边缘,所述多个节点中的每个对应于用于所述一个或多个对应字母数字字符中的每个的所述对应字母数字字符中的一个或多个,所述多个节点中的每个与用于所述一个或多个对应字母数字字符中的每个的所述对应预测测量相关联,并且所述多个节点中的每个通过所述多个边缘中的一个或多个连接,其中,选择所述给定候选唯一个人标识符基于所述可能性树。14.根据权利要求13所述的方法,其中,所述可能性树由所述多个ASR语音假设来约束。15.根据权利要求14所述的方法,其中,所述可能性树由存储在一个或多个数据库中的多个唯一个人标识符来约束。
16.根据前述权利要求中的任一项所述的方法,其中,处理所述多个语音假设中的一个或多个以生成所述一个或多个候选唯一个人标识符包括:使用所述多个ML层处理所述多个ASR语音假设中的每个以生成用于所述唯一个人标识符的可能性树,所述可能性树包括多个节点和多个边缘,所述多个节点中的每个对应于用于所述一个或多个对应字母数字字符中的每个的对应字母数字字符中的一个或多个,所述多个节点中的每个与用于所述一个或多个对应字母数字字符中的每个的所述对应预测测量相关联,并且所述多个节点中的每个通过所述多个边缘中的一个或多个连接,其中,选择所述给定候选唯一个人标识符是基于所述可能性树。17.根据前述权利要求中的任一项所述的方法,其中,所述唯一个人标识符是以下中的一个或多个:电子邮件地址、物理地址、用户名、口令、实体的名称或域名。18.根据前述权利要求中的任一项所述的方法,还包括:获得所述话音机器人对所述话音机器人与所述人类之间的所述对应对话的一部分的意图;以及其中,使用所述多个ML层处理所述多个ASR语音假设中的一个或多个以生成候选唯一个人标识符中的一个或多个还包括使用所述多个ML层处理所述话音机器人的所述意图以生成所述候选唯一个人标识符中的一个或多个。19.根据权利要求18所述的方法,其中,所述话音机器人的所述意图包括以下中的一个或多个:请求所述人类提供所述唯一个人标识符;请求所述人类拼写所述唯一个人标识符;或者请求所述人类提供所述给定字母数字字符中的一个或多个的澄清。20.一种由一个或多个处理器实现的方法,所述方法包括:接收捕获人类的口头话语的音频数据,所述口头话语由话音机器人在所述人类与所述话音机器人之间的对应对话期间被接收;利用自动语音识别ASR模型处理所述音频数据,以生成多个ASR语音假设;响应于预测所述口头话语包括唯一个人标识符,所述唯一个人标识符包括对给定用户来说是个人的唯一字母数字字符序列:使用一个或多个ML模型的多个机器学习ML层来处理所述多个ASR语音假设中的一个或多个,以生成一个或多个候选唯一个人标识符,所述一个或多个候选唯一个人标识符中的每个包括与一个或多个对应字母数字字符相关联的对应预测测量;以及基于与用于所述一个或多个候选唯一个人标识符中的每个的所述对应字母数字字符中的一个或多个相关联的所述对应预测测量,从所述对应字母数字字符中的一个或多个当中选择一个或多个给定字母数字字符;在所述给定候选唯一个人标识符被预测为对应于所述唯一个人标识符之前:基于与用于所述给定候选唯一个人标识符的所述对应字母数字字符中的一个或多个相关联的所述对应预测测量来生成对应提示,所述对应提示包括请求用于所述给定候选唯一个人标识符的所述对应字母数字字...

【专利技术属性】
技术研发人员:拉斐尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1