使用序列到序列映射在模拟数据与语音识别输出之间进行协调制造技术

技术编号:30148925 阅读:12 留言:0更新日期:2021-09-25 14:54
接收合成训练数据项,该合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列。使用机器学习模型处理所述合成训练数据项,该机器学习模型输出表示所述合成句子的第二符号序列。通过用第二符号序列替换第一符号序列来修改所述合成训练数据项。在第一符号序列与第三符号序列之间存在统计学上的显著不匹配,该第三符号序列可由声学模型输出,该声学模型处理表示所述合成句子的话语的一组声学特征,并且在第二符号序列与第三符号序列之间不存在统计学上的显著不匹配。所述经修改的合成训练数据项可以被用于训练第二机器学习模型,该第二机器学习模型处理由所述声学模型输出的数据。输出的数据。输出的数据。

【技术实现步骤摘要】
【国外来华专利技术】使用序列到序列映射在模拟数据与语音识别输出之间进行协调


[0001]本公开涉及人工智能和机器学习的领域,并且特别涉及包括一种使声学模型的输出与模拟器的输出协调一致(reconcile)的机器学习模型的序列到序列转换器。

技术介绍

[0002]会话代理是解释用户以普通自然语言作出的句子并对用户以普通自然语言作出的句子作出响应的软件程序。会话代理的示例包括和传统的会话代理包括自动语音识别(ASR)系统,其接收音频波形并且执行特征提取以将音频波形转换为声学特征的序列。传统的ASR系统包括声学模型(AM)和语言模型(LM)。AM从这些声学特征来确定音素的聚类结果(senone)的可能性,其中每个音素的聚类结果是三音素,而LM确定词序列的先验可能性。在给定输入的情况下,AM使用发音词汇来选择最大可能的词序列(例如,充当语音转写引擎)。由ASR输出的文本序列是对自然语言理解(NLU)系统的输入,该NLU系统基于由ASR输出的文本来确定讲话者的意图。随后,所确定的讲话者的意图被输入到对话管理系统中,该对话管理系统确定要执行以满足所确定的意图的一个或多个动作。
[0003]通常没有足够的真实世界数据来适当地训练ASR系统和/或NLU系统。因此,在一些情况下,生成合成的训练数据以训练ASR系统和/或NLU系统。例如,ASR的LM可以在真实数据和模拟的训练数据的组合上进行训练。然而,由模拟器生成的合成训练数据通常与ASR系统和NLU系统将操作于的真实世界数据基本上不同。训练数据与真实世界数据(例如,在测试和/或现场应用中使用的数据)之间的这种不匹配降低了ASR系统和/或NLU系统的性能。这样的不匹配可以例如由噪声、混响、讲话者性别、年龄、口音等的变化引起。另外,当人们在许多情况下讲话时,他们自然地使用非标准语法,并且出现诸如频繁停止、重新开始、不完整话语、纠正、“嗯”、“和”等的表现错误,如果NLU的设计基于清晰的、语法上正确的、无错误的语音,则这使NLU确定正确的讲话者意图非常具有挑战性。这些现象通常引起会话代理不正确地确定讲话者意图或无法确定讲话者意图。
附图说明
[0004]根据以下给出的详细描述以及各个本公开实施例的附图,将更充分地理解本公开,然而,它们不应该用于将本公开局限于特定实施例,而仅用于解释和理解。
[0005]图1A为根据本公开的实施例的具有已使用合成的训练数据进行训练的转码器(transcoder)或NLU的会话代理管道(pipeline)的框图。
[0006]图1B为示出根据本公开的实施例的具有转码器或NLU的会话代理管道的框图,该转码器或NLU已使用合成的训练数据进行训练,该合成的训练数据已由协调器(reconciler)(序列到序列转换器)处理。
[0007]图2A为示出根据本公开的实施例的协调器(序列到序列转换器)训练管道的框图。
[0008]图2B为示出根据本公开的实施例的转码器训练管道的框图。
[0009]图3为示出根据本公开的实施例的将机器学习模型训练作为转码器的方法的流程图。
[0010]图4为示出根据本公开的实施例的将机器学习模型训练作为序列到序列转换器(协调器)的方法的流程图。
[0011]图5为示出根据本公开的实施例的使用会话代理从音频输入确定讲话者意图的方法的流程图。
[0012]图6为示出根据本公开的实施例的示例性计算机系统的框图。
具体实施方式
[0013]本公开的实施例涉及序列到序列转换器(在本文中还称为符号到符号转换器、协调器或模拟器到声学模型协调器),其将模拟器的输出(例如,诸如合成训练数据项中的词、音节或音素(phoneme)的符号序列)和声学模型或ASR的输出(例如,诸如词、音节或音素的符号序列)协调一致。序列到序列转换器将模拟的训练数据中的符号序列转换为新的符号序列,该新的符号序列更加紧密地匹配声学模型或ASR的输出。可以通过用新的符号序列替换原始的符号序列来修改模拟的训练数据。随后,经修改的训练数据可以被用于训练转码器或NLU。在合成训练数据项中的初始符号序列与由声学模型或ASR输出的符号序列之间可能存在统计学上的显著不匹配。这种不匹配意味着训练转码器或NLU所基于的数据不同于转码器或NLU在操作期间接收的数据。这种不匹配可能显著降低转码器或NLU的从基于真实世界用户话语的符号序列适当地确定意图、动作和/或实体的精确度。然而,通过将序列到序列转换器(协调器)应用于用于训练NLU或转码器的合成数据,经修改的训练数据项中的符号序列可能与由声学模型或ASR产生的符号序列在统计学上没有显著不匹配。
[0014]实施例中描述的会话代理包括声学模型(AM)和/或语言模型(ML)、转码器和被布置成管道的业务逻辑系统。声学模型被训练以从表示讲话者的话语的音频波形接收包括声学特征的输入,并且输出表示讲话者的话语的音素序列(语音的基本构建块)。音素序列可以由包括音素概率分布的向量的序列来表示。声学模型还可以可选地输出非音素或韵律特征的序列以及音素序列。这些特征的一些示例包括音调、音量、持续时间等。由声学模型输出的音素(例如,其可以包括音素概率分布的向量)和/或非音素或韵律特征可以以规则和/或不规则间隔出现。
[0015]由声学模型输出的音素序列(例如,其可以包括表示音素概率分布的向量的序列)和/或非音素特征可以被输入到转码器中,该转码器被训练以接收音素序列并且基于音素序列来输出关于意图的核心推断(在本文中称为转码)。所确定的意图(转码)可以包括一个或多个所请求的动作(例如,将物品添加到订单、取消订单、从订单移除物品、从订单修改物品)以及与所述一个或多个动作相关联的一个或多个实体(例如,名词)(例如,汉堡、泡菜、饮料、特定飞机航班等)。应该注意,在一些实施例中描述的转码器对音素序列进行操作,而不是对文本进行操作。
[0016]在其它实施例中,会话代理管道包括传统的ASR和NLU。会话代理可以在ASR系统处接收音频波形,并且执行特征提取以通过ASR系统将音频波形转换成声学特征的序列,该
ASR系统可以包括声学模型(AM)和语言模型(LM)。AM确定从这些声学特征到各种假设音素序列的映射的可能性,而LM确定词序列的先验可能性。AM可以包括发音词汇表,以选择给定输入的最大可能的词序列(例如,充当语音转写引擎)。随后,由ASR输出的文本的序列被输入NLU系统中,该NLU系统基于由ASR输出的文本来确定讲话者的意图。随后,将讲话者的所确定的意图输入到对话管理系统中,该对话管理系统确定要执行以满足所确定的意图的一个或多个动作。
[0017]在实施例中,由转码器或NLU输出的转码被输入到业务逻辑系统或层中。业务逻辑系统可以包括检查转码的不一致和/或错误(例如,诸如与蛋黄酱一起订购的健怡可乐,或在短时间范围内订购的多个相同的物品)的一个或多个规则。业务逻辑解决任何所标识的不一致和/或错误,并随后执行一个或多个操作以满足转码中的动作,诸如将物品添加到订单。
[0018]可以使用合成的训练数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收合成训练数据项,所述合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列;使用序列到序列转换器处理所述合成训练数据项以输出表示所述合成句子的第二符号序列,所述序列到序列转换器包括第一机器学习模型;以及通过用所述第二符号序列替换所述第一符号序列来修改所述合成训练数据项,其中,在所述第一符号序列与第三符号序列之间存在统计学上的显著不匹配,所述第三符号序列由声学模型输出,所述声学模型处理表示所述合成句子的话语的一组声学特征,并且其中,在所述第二符号序列与所述第三符号序列之间不存在统计学上的显著不匹配;以及使用经修改的合成训练数据项来训练第二机器学习模型。2.根据权利要求1所述的方法,还包括:通过所述模拟器生成所述合成训练数据项,其中,所述合成训练数据项包括a)所述合成句子的文本表示,以及b)所述合成句子的一个或多个转码,其包括一个或多个动作和与所述合成句子中包括的所述一个或多个动作相关联的一个或多个实体;以及将所述合成训练数据项的合成句子的文本表示转换成所述第一符号序列。3.根据权利要求2所述的方法,其中,所述第二机器学习模型被训练为从音素序列确定转码的转码器,所述转码包括动作和相关联的实体,其中,所述训练是使用训练数据集来执行的,所述训练数据集包括所述经修改的合成训练数据项和多个附加的经修改的合成训练数据项,其中,所述经修改的合成训练数据项包括a)所述第二符号序列,以及b)所述合成句子的一个或多个转码。4.根据权利要求3所述的方法,还包括:在所述声学模型处接收新话语的声学特征;使用所述声学模型来处理所述新话语的声学特征,以产生表示所述新话语的新符号序列;使用被训练为所述转码器的第二机器学习模型来处理所述新符号序列,以确定包括一个或多个新动作和一个或多个新的相关联实体的一个或多个新转码;通过业务逻辑来处理所述一个或多个新转码以确定要执行以满足所述一个或多个动作的一个或多个操作,所述一个或多个新转码包括所述一个或多个新动作和所述一个或多个新的相关联的实体;以及执行所述一个或多个操作。5.根据权利要求1所述的方法,其中,所述第一符号序列包括第一音素序列并且所述第二符号序列包括第二音素序列。6.根据权利要求1所述的方法,其中,所述第一符号序列包括第一音节序列并且所述第二符号序列包括第二音节序列。7.根据权利要求1所述的方法,其中,所述第一符号序列包括第一词序列并且所述第二符号序列包括第二词序列。8.根据权利要求1所述的方法,其中,所述声学模型包括从声学特征生成符号序列的第二机器学习模型,所述声学特征是从话语的声学数据导出的。9.根据权利要求1所述的方法,其中,所述合成训练数据项还包括以下中的至少一项:
a)一个或多个讲话者特性、b)一个或多个麦克风特性、或c)一个或多个噪声特性,其中,所述序列到序列转换器接收所述第一符号序列和以下中的至少一项作为输入:a)所述一个或多个讲话者特性、b)所述一个或多个麦克风特性或c)所述一个或多个噪声特性,并且其中,所述第二符号序列至少部分基于a)所述一个或多个讲话者特性、b)所述一个或多个麦克风特性或c)所述一个或多个噪声特性。10.一种方法,包括:接收包括多个数据项的训练数据集,其中,所述多个数据项中的每一个数据项包括从针对相应话语的音频数据导出的相应声学特征和表示所述相应话语的相应第一符号序列;通过声学模型来处理针对所述多个数据项中的每一个数据项的相应声学特征,以输出表示所述相应话语的相应第二符号序列;通过针对所述多个数据项中的每一个数据项从所述数据项中移除所述相应声学特征并将所述相应第二符号序列添加到所述数据项来修改所述训练数据集;使用所述经修改的训练数据集来将机器学习模型训练为序列到序列转换器,其中,针对来自所述经修改的训练数据集的一个或多个数据项,在训练期间将所述第一符号序列输入到所述机器学习模型中,并且将所述第二符号序列用作目标以调整所述机器学习模型中的节点的权重。11.根据权利要求10所述的方法,其中,在所述训练之后,所述机器学习模型被训练为通过用第四符号序列替换所述第三符号序列来修改合成训练数据项,所述合成训练数据项包括表示合成句子的第三符号序列,所述第四符号序列还表示所述合成句子,其中,在所述第三符号序列与第五符号序列之间存在统计学上的显著不匹配,所述第五符号序列是在处理新的声学特征集合时由所述声学模型输出的,所述新的声学特征集合表示所述合成句子的话语,并且其中,在所述第四符号序列与所述第五符号序列之间不存在统计学上的显著不匹配。12.根据权利要求10所述的方法,还包括:通过第二机器学习模型处理所述多个数据项的...

【专利技术属性】
技术研发人员:I
申请(专利权)人:艾普伦特有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1