用于自然语言处理的关键词数据扩充工具制造技术

技术编号：38574630 阅读：15 留言：0更新日期：2023-08-22 21:07

用于针对在自然语言处理中训练聊天机器人系统进行关键词数据扩充的技术。在一个特定方面，提供了一种方法，该方法包括：接收训练话语集，该训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；利用域外(OOD)示例来扩充该训练话语集。扩充包括：识别训练话语集中的话语内的关键词，生成具有识别出的关键词的OOD示例集，从该OOD示例集中过滤掉上下文与该训练话语集中的话语的上下文基本相似的OOD示例，以及将不具有被过滤掉的OOD示例的OOD示例集并入训练话语集中以生成经扩充的训练话语集。此后，使用该经扩充的训练话语集来训练该机器学习模型。语集来训练该机器学习模型。语集来训练该机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的关键词数据扩充工具
[0001]相关申请的交叉引用
[0002]本申请要求于2021年10月28日提交的美国非临时申请号17/452,742的权益和优先权，该美国非临时申请要求于2020年11月30日提交的美国临时申请号63/119,540的权益和优先权，这些申请的全部内容出于所有目的通过引用并入本文。

[0003]本公开总体上涉及聊天机器人系统，并且更具体地涉及用于在自然语言处理中针对训练聊天机器人系统进行关键词数据扩充的技术。

技术介绍

[0004]为了获得即时反应，世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而，雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话，尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流，并且因此可以允许机器人与最终用户之间更加自然的会话以改善会话体验。不是最终用户学习机器人知道的如何作出响应的固定的一组关键词或命令，而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出响应。
[0005]然而，很难构建聊天机器人，因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分，开发人员...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：在数据处理系统处接收训练话语集，所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；由所述数据处理系统利用域外(OOD)示例来扩充所述训练话语集，其中，所述扩充包括：识别所述训练话语集中的话语内的关键词，生成具有识别出的关键词的OOD示例集，从所述OOD示例集中过滤掉具有与所述训练话语集中的所述话语的上下文基本相似的上下文的OOD示例，以及将不具有被过滤掉的OOD示例的所述OOD示例集并入所述训练话语集中以生成经扩充的训练话语集；以及由所述数据处理系统使用所述经扩充的训练话语集来训练所述机器学习模型。2.如权利要求1所述的方法，进一步包括使所述训练话语集和/或所述OOD示例集标准化，其中，所述标准化包括：(i)过滤掉被识别为识别出的关键词的停用词，(ii)对所述训练话语集中的所有词按屈折变化形式进行归类，(iii)对具有识别出的关键词的所述OOD示例集中的所有词按屈折变化形式进行归类，或者(iv)其任何组合。3.如权利要求1或权利要求2所述的方法，其中，所述关键词是使用词频
‑
逆文档频率(TF
‑
IDF)、词频、标签名称、可解释性工具或者其任何组合来识别的。4.如任一前述权利要求所述的方法，其中，所述OOD示例集是使用语料库、词汇数据库、文本生成模型、对抗性攻击模型或者其任何组合来生成的。5.如任一前述权利要求所述的方法，其中，基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性，以避免分类之间的冲突。6.如任一前述权利要求所述的方法，进一步包括在聊天机器人系统中部署经训练的所述机器学习模型。7.如任一前述权利要求所述的方法，其中，所述关键词是通过对所述机器学习模型的训练而有可能变得与某些基本事实意图相关联的词。8.一种系统，包括：一个或多个处理器；以及耦接至所述一个或多个处理器的存储器，所述存储器存储有能够由所述一个或多个处理器执行的多个指令，所述多个指令包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令：接收训练话语集，所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图；利用域外(OOD)示例来扩充所述训练话语集，其中，所述扩充包括：识别所述训练话语集中的话语内的关键词，生成具有识别出的关键词的OOD示例集，从所述OOD示例集中过滤掉具有与所述训练话语集中的所述话语的上下文基本相似的上下文的OOD示例，以及
将不具有被过滤掉的OOD示例的所述OOD示例集并入所述训练话语集中以生成经扩充的训练话语集；以及使用所述经扩充的训练话语集来训练所述机器学习模型。9.如权利要求8所述的系统，其中，所述操作进一步包括使所述训练话语集和/或所述OOD示例集标准化，其中，所述标准化包括：(i)过滤掉被识别为识别出的关键词的停用词，(ii)对所述训练话语集中的所有词按屈折变化形式进行归类，(iii)对具有识别出的关键词的所述OOD示例集中的所有词按屈折...

【专利技术属性】
技术研发人员：E，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人