使用序列到序列映射在模拟数据与语音识别输出之间进行协调制造技术

技术编号：30148925 阅读：12 留言：0更新日期：2021-09-25 14:54

接收合成训练数据项，该合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列。使用机器学习模型处理所述合成训练数据项，该机器学习模型输出表示所述合成句子的第二符号序列。通过用第二符号序列替换第一符号序列来修改所述合成训练数据项。在第一符号序列与第三符号序列之间存在统计学上的显著不匹配，该第三符号序列可由声学模型输出，该声学模型处理表示所述合成句子的话语的一组声学特征，并且在第二符号序列与第三符号序列之间不存在统计学上的显著不匹配。所述经修改的合成训练数据项可以被用于训练第二机器学习模型，该第二机器学习模型处理由所述声学模型输出的数据。输出的数据。输出的数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用序列到序列映射在模拟数据与语音识别输出之间进行协调

[0001]本公开涉及人工智能和机器学习的领域，并且特别涉及包括一种使声学模型的输出与模拟器的输出协调一致(reconcile)的机器学习模型的序列到序列转换器。

技术介绍

[0002]会话代理是解释用户以普通自然语言作出的句子并对用户以普通自然语言作出的句子作出响应的软件程序。会话代理的示例包括和传统的会话代理包括自动语音识别(ASR)系统，其接收音频波形并且执行特征提取以将音频波形转换为声学特征的序列。传统的ASR系统包括声学模型(AM)和语言模型(LM)。AM从这些声学特征来确定音素的聚类结果(senone)的可能性，其中每个音素的聚类结果是三音素，而LM确定词序列的先验可能性。在给定输入的情况下，AM使用发音词汇来选择最大可能的词序列(例如，充当语音转写引擎)。由ASR输出的文本序列是对自然语言理解(NLU)系统的输入，该NLU系统基于由ASR输出的文本来确定讲话者的意图。随后，所确定的讲话者的意图被输入到对话管理系统中，该对话管理系统确定要执行以满足所确定的意图的一个或多个动作。
[0003]通常没有足够的真实世界数据来适当地训练ASR系统和/或NLU系统。因此，在一些情况下，生成合成的训练数据以训练ASR系统和/或NLU系统。例如，ASR的LM可以在真实数据和模拟的训练数据的组合上进行训练。然而，由模拟器生成的合成训练数据通常与ASR系统和NLU系统将操作于的真实世界数据基本上不同。训练数据与真实世界数据(例如，在测试和/或现场应用中使用的数...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：接收合成训练数据项，所述合成训练数据项包括表示由模拟器输出的合成句子的第一符号序列；使用序列到序列转换器处理所述合成训练数据项以输出表示所述合成句子的第二符号序列，所述序列到序列转换器包括第一机器学习模型；以及通过用所述第二符号序列替换所述第一符号序列来修改所述合成训练数据项，其中，在所述第一符号序列与第三符号序列之间存在统计学上的显著不匹配，所述第三符号序列由声学模型输出，所述声学模型处理表示所述合成句子的话语的一组声学特征，并且其中，在所述第二符号序列与所述第三符号序列之间不存在统计学上的显著不匹配；以及使用经修改的合成训练数据项来训练第二机器学习模型。2.根据权利要求1所述的方法，还包括：通过所述模拟器生成所述合成训练数据项，其中，所述合成训练数据项包括a)所述合成句子的文本表示，以及b)所述合成句子的一个或多个转码，其包括一个或多个动作和与所述合成句子中包括的所述一个或多个动作相关联的一个或多个实体；以及将所述合成训练数据项的合成句子的文本表示转换成所述第一符号序列。3.根据权利要求2所述的方法，其中，所述第二机器学习模型被训练为从音素序列确定转码的转码器，所述转码包括动作和相关联的实体，其中，所述训练是使用训练数据集来执行的，所述训练数据集包括所述经修改的合成训练数据项和多个附加的经修改的合成训练数据项，其中，所述经修改的合成训练数据项包括a)所述第二符号序列，以及b)所述合成句子的一个或多个转码。4.根据权利要求3所述的方法，还包括：在所述声学模型处接收新话语的声学特征；使用所述声学模型来处理所述新话语的声学特征，以产生表示所述新话语的新符号序列；使用被训练为所述转码器的第二机器学习模型来处理所述新符号序列，以确定包括一个或多个新动作和一个或多个新的相关联实体的一个或多个新转码；通过业务逻辑来处理所述一个或多个新转码以确定要执行以满足所述一个或多个动作的一个或多个操作，所述一个或多个新转码包括所述一个或多个新动作和所述一个或多个新的相关联的实体；以及执行所述一个或多个操作。5.根据权利要求1所述的方法，其中，所述第一符号序列包括第一音素序列并且所述第二符号序列包括第二音素序列。6.根据权利要求1所述的方法，其中，所述第一符号序列包括第一音节序列并且所述第二符号序列包括第二音节序列。7.根据权利要求1所述的方法，其中，所述第一符号序列包括第一词序列并且所述第二符号序列包括第二词序列。8.根据权利要求1所述的方法，其中，所述声学模型包括从声学特征生成符号序列的第二机器学习模型，所述声学特征是从话语的声学数据导出的。9.根据权利要求1所述的方法，其中，所述合成训练数据项还包括以下中的至少一项：
a)一个或多个讲话者特性、b)一个或多个麦克风特性、或c)一个或多个噪声特性，其中，所述序列到序列转换器接收所述第一符号序列和以下中的至少一项作为输入：a)所述一个或多个讲话者特性、b)所述一个或多个麦克风特性或c)所述一个或多个噪声特性，并且其中，所述第二符号序列至少部分基于a)所述一个或多个讲话者特性、b)所述一个或多个麦克风特性或c)所述一个或多个噪声特性。10.一种方法，包括：接收包括多个数据项的训练数据集，其中，所述多个数据项中的每一个数据项包括从针对相应话语的音频数据导出的相应声学特征和表示所述相应话语的相应第一符号序列；通过声学模型来处理针对所述多个数据项中的每一个数据项的相应声学特征，以输出表示所述相应话语的相应第二符号序列；通过针对所述多个数据项中的每一个数据项从所述数据项中移除所述相应声学特征并将所述相应第二符号序列添加到所述数据项来修改所述训练数据集；使用所述经修改的训练数据集来将机器学习模型训练为序列到序列转换器，其中，针对来自所述经修改的训练数据集的一个或多个数据项，在训练期间将所述第一符号序列输入到所述机器学习模型中，并且将所述第二符号序列用作目标以调整所述机器学习模型中的节点的权重。11.根据权利要求10所述的方法，其中，在所述训练之后，所述机器学习模型被训练为通过用第四符号序列替换所述第三符号序列来修改合成训练数据项，所述合成训练数据项包括表示合成句子的第三符号序列，所述第四符号序列还表示所述合成句子，其中，在所述第三符号序列与第五符号序列之间存在统计学上的显著不匹配，所述第五符号序列是在处理新的声学特征集合时由所述声学模型输出的，所述新的声学特征集合表示所述合成句子的话语，并且其中，在所述第四符号序列与所述第五符号序列之间不存在统计学上的显著不匹配。12.根据权利要求10所述的方法，还包括：通过第二机器学习模型处理所述多个数据项的...

【专利技术属性】
技术研发人员：I，
申请(专利权)人：艾普伦特有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人