用于自然语言处理的关键词数据扩充工具制造技术

技术编号:38574630 阅读:15 留言:0更新日期:2023-08-22 21:07
用于针对在自然语言处理中训练聊天机器人系统进行关键词数据扩充的技术。在一个特定方面,提供了一种方法,该方法包括:接收训练话语集,该训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;利用域外(OOD)示例来扩充该训练话语集。扩充包括:识别训练话语集中的话语内的关键词,生成具有识别出的关键词的OOD示例集,从该OOD示例集中过滤掉上下文与该训练话语集中的话语的上下文基本相似的OOD示例,以及将不具有被过滤掉的OOD示例的OOD示例集并入训练话语集中以生成经扩充的训练话语集。此后,使用该经扩充的训练话语集来训练该机器学习模型。语集来训练该机器学习模型。语集来训练该机器学习模型。

【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的关键词数据扩充工具
[0001]相关申请的交叉引用
[0002]本申请要求于2021年10月28日提交的美国非临时申请号17/452,742的权益和优先权,该美国非临时申请要求于2020年11月30日提交的美国临时申请号63/119,540的权益和优先权,这些申请的全部内容出于所有目的通过引用并入本文。


[0003]本公开总体上涉及聊天机器人系统,并且更具体地涉及用于在自然语言处理中针对训练聊天机器人系统进行关键词数据扩充的技术。

技术介绍

[0004]为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流,并且因此可以允许机器人与最终用户之间更加自然的会话以改善会话体验。不是最终用户学习机器人知道的如何作出响应的固定的一组关键词或命令,而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出响应。
[0005]然而,很难构建聊天机器人,因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分,开发人员可以首先了解企业和最终用户的需求。开发人员然后可以分析并作出与例如以下各项有关的决策:选择要用于分析的数据集;准备用于分析的输入数据集(例如,在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程等);识别用于执行分析的适当的一种或多种机器学习(ML)技术或一种或多个ML模型;以及改善技术或模型以基于反馈改善结果/效果。识别适当的模型的任务可以包括:在识别特定的模型(或多个模型)以供使用之前,开发多个模型(可能并行地)、迭代地利用这些模型进行测试和实验。进一步地,基于监督式学习的解决方案通常涉及训练阶段、随后是应用(即,推理)阶段和介于训练阶段与应用阶段之间的迭代循环。开发人员可以负责仔细地实施并监测这些阶段,以实现最佳解决方案。例如,为了训练一种或多种ML技术或一个或多个模型,需要精确的训练数据以使算法能够理解和学习某些模式或特征(例如,对于聊天机器人——需要意图提取和仔细的句法分析,而不仅仅是原始语言处理),该一种或多种ML技术或一个或多个模型将使用这些模式或特征来预测期望的结果(例如,从话语中推断出意图)。为了确保一种或多种ML技术或一个或多个模型正确学习这些模式和特征,开发人员可以负责针对该一种或多种ML技术或一个或多个模型来选择、丰富和优化训练数据集。

技术实现思路

[0006]本文所公开的技术总体上涉及聊天机器人。更具体且非限制性地,本文公开的技术涉及用于在自然语言处理中训练聊天机器人系统的训练数据集的关键词数据扩充的技术。聊天机器人可以将用户话语分类为不同的分类,如用户的预定义意图。聊天机器人的分类器可以包括经训练的ML模型,该ML模型基于输入(例如,用户话语)生成输出(例如,意图)。用户话语可以采取语音的形式。在这种情况下,经训练的ML模型可以被理解为实施改进的语音识别,其中,语音识别允许更准确地识别用户意图。当用于训练经训练的ML模型的训练数据不足时,聊天机器人可能会更频繁地确定错误的意图。本文公开的技术可以提供用于训练ML模型的关键词扩充的数据集,使得ML模型对无关的上下文更具弹性并且更准确地学习意图的模式或边界。
[0007]在各种实施例中,提供了一种计算机实施的方法,该计算机实施的方法包括:接收训练话语集,该训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;利用域外(OOD)示例来扩充该训练话语集。扩充包括:识别训练话语集中的话语内的关键词,生成具有识别出的关键词的OOD示例集,从OOD示例集中过滤掉上下文与训练话语集中的话语的上下文基本相似的OOD示例,以及将不具有被过滤掉的OOD示例的OOD示例集并入训练话语集中以生成经扩充的训练话语集。此后,使用经扩充的训练话语集来训练机器学习模型。
[0008]在一些实施例中,该方法进一步包括将训练话语集和/或OOD示例集标准化,其中,标准化包括:(i)过滤掉被识别为识别出的关键词的停用词,(ii)对训练话语集中的所有词按屈折变化形式进行归类,(iii)对具有所述识别的关键词的所述OOD示例集中的所有词按屈折变化形式进行归类(lemmatizing),或(iv)其任何组合。
[0009]在一些实施例中,使用词频

逆文档频率(TF

IDF)、词频、标签名称、可解释性工具或其任何组合来识别关键词。
[0010]在一些实施例中,OOD示例集是使用语料库、词汇数据库、文本生成模型、对抗性攻击模型或其任何组合而生成的。
[0011]在一些实施例中,基于距离测量来确定OOD示例的上下文与训练话语集中的话语的上下文之间的基本相似性,以避免分类之间的冲突。
[0012]在一些实施例中,该方法进一步包括在聊天机器人系统中部署经训练的机器学习模型。
[0013]在一些实施例中,关键词是通过机器学习模型的训练有可能变得与某些基本事实意图相关联的词。
[0014]在各种实施例中,提供了一种计算机实施的方法,该计算机实施的方法包括:由聊天机器人系统接收由与聊天机器人系统交互的用户生成的话语;使用部署在聊天机器人系统内的机器学习模型来将该话语分类为与某意图相对应的意图类别,其中,该机器学习模型包括使用训练数据识别的多个模型参数,该训练数据包括:用于训练意图分类器以识别一个或多个话语的一个或多个意图的经扩充的训练话语集,其中,该经扩充的训练话语集被人工生成以包括来自训练话语集中的经扩充的话语,其中,关键词从训练话语集中被识别并且被并入上下文与训练话语集中的话语的上下文显著不同的域外(OOD)话语中以生成该经扩充的话语,并且其中,基于使成本函数最大化或最小化使用训练数据来识别该多个
模型参数;以及使用机器学习模型基于分类来输出意图。
[0015]在各种实施例中,提供了一种系统,该系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质,该指令在所述一个或多个数据处理器上执行时使该一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部。
[0016]在各种实施例中,提供了一种计算机程序产品,该计算机程序产品有形地体现在非暂态机器可读存储介质中并且包括被配置为使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。
[0017]可以用多种方式并且在多种上下文中实施上文和下文所描述的技术。如下文更详细地描述的,参考以下附图提供了多种示例实施方式和上下文。然而,以下实施方式和上下文仅是许多实施方式和上下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在数据处理系统处接收训练话语集,所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;由所述数据处理系统利用域外(OOD)示例来扩充所述训练话语集,其中,所述扩充包括:识别所述训练话语集中的话语内的关键词,生成具有识别出的关键词的OOD示例集,从所述OOD示例集中过滤掉具有与所述训练话语集中的所述话语的上下文基本相似的上下文的OOD示例,以及将不具有被过滤掉的OOD示例的所述OOD示例集并入所述训练话语集中以生成经扩充的训练话语集;以及由所述数据处理系统使用所述经扩充的训练话语集来训练所述机器学习模型。2.如权利要求1所述的方法,进一步包括使所述训练话语集和/或所述OOD示例集标准化,其中,所述标准化包括:(i)过滤掉被识别为识别出的关键词的停用词,(ii)对所述训练话语集中的所有词按屈折变化形式进行归类,(iii)对具有识别出的关键词的所述OOD示例集中的所有词按屈折变化形式进行归类,或者(iv)其任何组合。3.如权利要求1或权利要求2所述的方法,其中,所述关键词是使用词频

逆文档频率(TF

IDF)、词频、标签名称、可解释性工具或者其任何组合来识别的。4.如任一前述权利要求所述的方法,其中,所述OOD示例集是使用语料库、词汇数据库、文本生成模型、对抗性攻击模型或者其任何组合来生成的。5.如任一前述权利要求所述的方法,其中,基于距离测量来确定OOD示例的所述上下文与所述训练话语集中的所述话语的所述上下文之间的基本相似性,以避免分类之间的冲突。6.如任一前述权利要求所述的方法,进一步包括在聊天机器人系统中部署经训练的所述机器学习模型。7.如任一前述权利要求所述的方法,其中,所述关键词是通过对所述机器学习模型的训练而有可能变得与某些基本事实意图相关联的词。8.一种系统,包括:一个或多个处理器;以及耦接至所述一个或多个处理器的存储器,所述存储器存储有能够由所述一个或多个处理器执行的多个指令,所述多个指令包括在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令:接收训练话语集,所述训练话语集用于训练机器学习模型以识别一个或多个话语的一个或多个意图;利用域外(OOD)示例来扩充所述训练话语集,其中,所述扩充包括:识别所述训练话语集中的话语内的关键词,生成具有识别出的关键词的OOD示例集,从所述OOD示例集中过滤掉具有与所述训练话语集中的所述话语的上下文基本相似的上下文的OOD示例,以及
将不具有被过滤掉的OOD示例的所述OOD示例集并入所述训练话语集中以生成经扩充的训练话语集;以及使用所述经扩充的训练话语集来训练所述机器学习模型。9.如权利要求8所述的系统,其中,所述操作进一步包括使所述训练话语集和/或所述OOD示例集标准化,其中,所述标准化包括:(i)过滤掉被识别为识别出的关键词的停用词,(ii)对所述训练话语集中的所有词按屈折变化形式进行归类,(iii)对具有识别出的关键词的所述OOD示例集中的所有词按屈折...

【专利技术属性】
技术研发人员:E
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1