用于自然语言处理的域外数据扩充制造技术

技术编号：38616254 阅读：10 留言：0更新日期：2023-08-26 23:43

用于针对在自然语言处理中训练聊天机器人系统进行域外数据扩充的技术。在一个特定方面，提供了一种方法，该方法包括：接收训练话语集，所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；利用域外(OOD)示例来扩充该训练话语集。扩充包括：生成OOD示例数据集，从该OOD示例数据集中过滤掉OOD示例，确定保留在过滤后的OOD示例数据集内的每个OOD示例的难度值，以及基于每个OOD的难度值生成经扩充的话语批，该经扩充的话语批包括来自训练话语集的话语和来自过滤后的OOD数据集的话语。此后，根据课程式训练协议使用该经扩充的话语批来训练该机器学习模型。经扩充的话语批来训练该机器学习模型。经扩充的话语批来训练该机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的域外数据扩充
[0001]相关申请的交叉引用
[0002]本申请要求于2021年10月28日提交的美国非临时申请号17/452,743的权益和优先权，该美国非临时申请要求于2020年11月30日提交的美国临时申请号63/119,526的权益和优先权，这些申请的全部内容出于所有目的通过引用并入本文。

[0003]本公开总体上涉及聊天机器人系统，并且更具体地涉及用于在自然语言处理中针对训练聊天机器人系统进行域外数据扩充的技术。

技术介绍

[0004]为了获得即时反应，世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而，雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话，尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流，并且因此可以允许机器人与最终用户之间更加自然的会话以改善会话体验。不是最终用户学习机器人知道的如何作出响应的固定的一组关键词或命令，而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出响应。
[0005]然而，很难构建聊天机器人，因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分，开发人员可以首先...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：在数据处理系统处接收训练话语集，所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；由所述数据处理系统利用域外(OOD)示例来扩充所述训练话语集，其中，所述扩充包括：生成OOD示例数据集，从所述OOD示例数据集中过滤掉具有与所述训练话语集中的话语的上下文基本相似的上下文的OOD示例，确定保留在过滤后的所述OOD示例数据集内的每个OOD示例的难度值，以及基于每个OOD的所述难度值生成经扩充的话语批，所述经扩充的话语批包括来自所述训练话语集的话语和来自过滤后的所述OOD数据集的话语；以及由所述数据处理系统使用所述经扩充的话语批来训练所述机器学习模型，其中，所述训练包括基于所述经扩充的话语批中的每一批内的所述OOD示例的所述难度值将所述经扩充的话语批馈送到所述机器学习模型。2.如权利要求1所述的方法，其中，基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性，以避免分类之间的冲突。3.如权利要求2所述的方法，其中，使用多语言通用句子编码器(MUSE)单嵌入来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性，并且其中，如果min(d_i)<预定阈值(其中，d_i＝欧几里德距离(v_i,u))，则OOD示例的所述上下文和所述训练话语集中的所述话语的所述上下文被确定为基本相似。4.如权利要求3所述的方法，其中，从d_i值得到所述难度值，使得简单的OOD示例将具有高d_i值，而困难的OOD示例将具有更接近所述预定阈值的较低d_i值。5.如权利要求4所述的方法，其中，所述经扩充的话语批是基于以下约束生成的：(i)预定的批大小，(ii)在每一批内并入来自所述训练话语集的预定数量的域内话语示例，(iii)在每一批内并入来自过滤后的所述OOD数据集的预定数量的OOD话语示例，(iv)选择所述预定数量的域内示例和所述预定数量的OOD话语示例以保持所述预定的批大小，(v)并入每一批中的OOD话语示例具有基本相似的难度值，以及可选地，(vi)来自过滤后的所述OOD数据集的每个ODD示例仅被并入所述经扩充的话语批中的单个批中。6.如任一前述权利要求所述的方法，进一步包括在聊天机器人系统中部署经训练的所述机器学习模型。7.如任一前述权利要求所述的方法，其中，使用批平衡方案生成所述经扩充的话语批。8.一种系统，包括：一个或多个处理器；以及耦接至所述一个或多个处理器的存储器，所述存储器存储有能够由所述一个或多个处理器执行的多个指令，所述多个指令包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令：接收训练话语集，所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；利用域外(OOD)示例来扩充所述训练话语集，其中，所述扩充包括：
生成OOD示例数据集，从所述OOD示例数据集中过滤掉具有与所述训练话语集中的话语的上下文基本相似的上下文的OOD示例，确定保留在过滤后的所述OOD示例数据集内的每个OOD示例的难度值，以及基于每个OOD的所述难度值生成经扩充的话语批，所述经扩充的话语批包括来自所述训练话语集的话语和来自过滤后的所述OOD数据集的话语；以及使用所述经扩充的话语批来训练所述机器学习模型，其中，所述训练包括基于所述经扩充的话语批中的每一批内的所述OOD示例的所述难度值将所述经扩充的话语批馈送到所述机器学习模型。9.如权利要求8所述的系统，其中，基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性，以避免分类之间的冲突。10.如权利要求9所述的系统，其中，使用多语言通用句子编码器(MUSE)单嵌入来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性，并且其中，如果min...

【专利技术属性】
技术研发人员：E，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人