用于自然语言处理的域外数据扩充制造技术

技术编号:38616254 阅读:10 留言:0更新日期:2023-08-26 23:43
用于针对在自然语言处理中训练聊天机器人系统进行域外数据扩充的技术。在一个特定方面,提供了一种方法,该方法包括:接收训练话语集,所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;利用域外(OOD)示例来扩充该训练话语集。扩充包括:生成OOD示例数据集,从该OOD示例数据集中过滤掉OOD示例,确定保留在过滤后的OOD示例数据集内的每个OOD示例的难度值,以及基于每个OOD的难度值生成经扩充的话语批,该经扩充的话语批包括来自训练话语集的话语和来自过滤后的OOD数据集的话语。此后,根据课程式训练协议使用该经扩充的话语批来训练该机器学习模型。经扩充的话语批来训练该机器学习模型。经扩充的话语批来训练该机器学习模型。

【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的域外数据扩充
[0001]相关申请的交叉引用
[0002]本申请要求于2021年10月28日提交的美国非临时申请号17/452,743的权益和优先权,该美国非临时申请要求于2020年11月30日提交的美国临时申请号63/119,526的权益和优先权,这些申请的全部内容出于所有目的通过引用并入本文。


[0003]本公开总体上涉及聊天机器人系统,并且更具体地涉及用于在自然语言处理中针对训练聊天机器人系统进行域外数据扩充的技术。

技术介绍

[0004]为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流,并且因此可以允许机器人与最终用户之间更加自然的会话以改善会话体验。不是最终用户学习机器人知道的如何作出响应的固定的一组关键词或命令,而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出响应。
[0005]然而,很难构建聊天机器人,因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分,开发人员可以首先了解企业和最终用户的需求。开发人员然后可以分析并作出与例如以下各项有关的决策:选择要用于分析的数据集;准备用于分析的输入数据集(例如,在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程等);识别用于执行分析的适当的一种或多种机器学习(ML)技术或一种或多个ML模型;以及改善技术或模型以基于反馈改善结果/效果。识别适当的模型的任务可以包括:在识别特定的模型(或多个模型)以供使用之前,开发多个模型(可能并行地)、迭代地利用这些模型进行测试和实验。进一步地,基于监督式学习的解决方案通常涉及训练阶段、随后是应用(即,推理)阶段和介于训练阶段与应用阶段之间的迭代循环。开发人员可以负责仔细地实施并监测这些阶段,以实现最佳解决方案。例如,为了训练一种或多种ML技术或一个或多个模型,需要精确的训练数据以使算法能够理解和学习某些模式或特征(例如,对于聊天机器人——需要意图提取和仔细的句法分析,而不仅仅是原始语言处理),该一种或多种ML技术或一个或多个模型将使用这些模式或特征来预测期望的结果(例如,从话语中推断出意图)。为了确保一种或多种ML技术或一个或多个模型正确学习这些模式和特征,开发人员可以负责针对该一种或多种ML技术或一个或多个模型来选择、丰富和优化训练数据集。

技术实现思路

[0006]本文所公开的技术总体上涉及聊天机器人。更具体且非限制性地,本文公开的技术涉及用于在自然语言处理中训练聊天机器人系统的训练数据集的关键词数据扩充的技术。聊天机器人可以将用户话语分类为不同的分类,如用户的预定义意图。聊天机器人的分类器可以包括经训练的ML模型,该ML模型基于输入(例如,用户话语)生成输出(例如,意图)。用户话语可以采取语音的形式。在这种情况下,经训练的ML模型可以被理解为实施改进的语音识别,其中,语音识别允许更准确地识别用户意图。当用于训练经训练的ML模型的训练数据不足时,聊天机器人可能会更频繁地确定错误的意图。本文公开的技术可以提供用于训练ML模型的关键词扩充的数据集,使得ML模型对无关的上下文更具弹性并且更准确地学习意图的模式或边界。
[0007]在各种实施例中,提供了一种计算机实施的方法,该计算机实施的方法包括:在数据处理系统处接收训练话语集,该训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;由数据处理系统利用域外(OOD)示例来扩充该训练话语集,其中,扩充包括:生成OOD示例数据集,从该OOD示例数据集中过滤掉具有与该训练话语集中的话语的上下文基本相似的上下文的OOD示例,确定保留在过滤后的OOD示例数据集内的每个OOD示例的难度值,以及基于每个OOD的难度值生成经扩充的话语批,该经扩充的话语批包括来自训练话语集的话语和来自过滤后的OOD数据集的话语;以及由数据处理系统使用该经扩充的话语批来训练该机器学习模型,其中,训练包括基于该经扩充的话语批中的每一批内的OOD示例的难度值将该经扩充的话语批馈送到机器学习模型。
[0008]在一些实施例中,基于距离测量来确定OOD示例的上下文与训练话语集中的话语的上下文之间的基本相似性,以避免分类之间的冲突。
[0009]在一些实施例中,OOD示例的上下文与训练话语集中的话语的上下文之间的基本相似性是使用多语言通用句子编码器(MUSE)单嵌入来确定的,并且其中,如果min(d_i)<预定阈值(其中,d_i=欧几里德距离(v_i,u)),则OOD示例的上下文和训练话语集中的话语的上下文被确定为基本相似。
[0010]在一些实施例中,从d_i值得到难度值,使得简单的OOD示例将具有高d_i值,而困难的OOD示例将具有更接近预定阈值的较低d_i值。
[0011]在一些实施例中,该经扩充的话语批是基于以下约束生成的:(i)预定的批大小,(ii)在每一批内并入来自训练话语集的预定数量的域内话语示例,(iii)在每一批内并入来自过滤后的OOD数据集的预定数量的OOD话语示例,(iv)选择该预定数量的域内示例和该预定数量的OOD话语示例以保持该预定的批大小,(v)并入每一批中的OOD话语示例具有基本相似的难度值,以及可选地,(vi)来自过滤后的OOD数据集的每个ODD示例仅被并入该经扩充的话语批中的单个批中。
[0012]在一些实施例中,该方法进一步包括在聊天机器人系统中部署经训练的机器学习模型。
[0013]在一些实施例中,该经扩充的话语批是使用批平衡方案生成的。
[0014]在各种实施例中,提供了一种计算机实施的方法,该计算机实施的方法包括:由聊天机器人系统接收由与聊天机器人系统交互的用户生成的话语;使用部署在聊天机器人系统内的意图分类器来将该话语分类为与某意图相对应的意图类别,其中,意图分类器包括
使用训练数据识别的多个模型参数,该训练数据包括:用于训练意图分类器以识别一个或多个话语的一个或多个意图的经扩充的训练话语集,其中,该经扩充的训练话语集被人工生成以包括来自训练话语集中的经扩充的话语,其中,经扩充的话语是具有与训练话语集中的话语的上下文显著不同的上下文的OOD话语,其中,OOD示例的上下文与训练话语集中的话语的上下文之间的显著不同是使用多语言通用句子编码器(MUSE)单嵌入来确定的,其中,如果min(d_i)=>预定阈值(其中,d_i=欧几里德距离(v_i,u)),则OOD示例的上下文和训练话语集中的话语的上下文被确定为显著不同,并且其中,基于使成本函数最小化使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在数据处理系统处接收训练话语集,所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;由所述数据处理系统利用域外(OOD)示例来扩充所述训练话语集,其中,所述扩充包括:生成OOD示例数据集,从所述OOD示例数据集中过滤掉具有与所述训练话语集中的话语的上下文基本相似的上下文的OOD示例,确定保留在过滤后的所述OOD示例数据集内的每个OOD示例的难度值,以及基于每个OOD的所述难度值生成经扩充的话语批,所述经扩充的话语批包括来自所述训练话语集的话语和来自过滤后的所述OOD数据集的话语;以及由所述数据处理系统使用所述经扩充的话语批来训练所述机器学习模型,其中,所述训练包括基于所述经扩充的话语批中的每一批内的所述OOD示例的所述难度值将所述经扩充的话语批馈送到所述机器学习模型。2.如权利要求1所述的方法,其中,基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性,以避免分类之间的冲突。3.如权利要求2所述的方法,其中,使用多语言通用句子编码器(MUSE)单嵌入来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性,并且其中,如果min(d_i)<预定阈值(其中,d_i=欧几里德距离(v_i,u)),则OOD示例的所述上下文和所述训练话语集中的所述话语的所述上下文被确定为基本相似。4.如权利要求3所述的方法,其中,从d_i值得到所述难度值,使得简单的OOD示例将具有高d_i值,而困难的OOD示例将具有更接近所述预定阈值的较低d_i值。5.如权利要求4所述的方法,其中,所述经扩充的话语批是基于以下约束生成的:(i)预定的批大小,(ii)在每一批内并入来自所述训练话语集的预定数量的域内话语示例,(iii)在每一批内并入来自过滤后的所述OOD数据集的预定数量的OOD话语示例,(iv)选择所述预定数量的域内示例和所述预定数量的OOD话语示例以保持所述预定的批大小,(v)并入每一批中的OOD话语示例具有基本相似的难度值,以及可选地,(vi)来自过滤后的所述OOD数据集的每个ODD示例仅被并入所述经扩充的话语批中的单个批中。6.如任一前述权利要求所述的方法,进一步包括在聊天机器人系统中部署经训练的所述机器学习模型。7.如任一前述权利要求所述的方法,其中,使用批平衡方案生成所述经扩充的话语批。8.一种系统,包括:一个或多个处理器;以及耦接至所述一个或多个处理器的存储器,所述存储器存储有能够由所述一个或多个处理器执行的多个指令,所述多个指令包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令:接收训练话语集,所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;利用域外(OOD)示例来扩充所述训练话语集,其中,所述扩充包括:
生成OOD示例数据集,从所述OOD示例数据集中过滤掉具有与所述训练话语集中的话语的上下文基本相似的上下文的OOD示例,确定保留在过滤后的所述OOD示例数据集内的每个OOD示例的难度值,以及基于每个OOD的所述难度值生成经扩充的话语批,所述经扩充的话语批包括来自所述训练话语集的话语和来自过滤后的所述OOD数据集的话语;以及使用所述经扩充的话语批来训练所述机器学习模型,其中,所述训练包括基于所述经扩充的话语批中的每一批内的所述OOD示例的所述难度值将所述经扩充的话语批馈送到所述机器学习模型。9.如权利要求8所述的系统,其中,基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性,以避免分类之间的冲突。10.如权利要求9所述的系统,其中,使用多语言通用句子编码器(MUSE)单嵌入来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性,并且其中,如果min...

【专利技术属性】
技术研发人员:E
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1