在聊天机器人中实现稳健命名实体识别的实体级数据扩充制造技术

技术编号：37134021 阅读：22 留言：0更新日期：2023-04-06 21:32

用于在自然语言处理中训练聊天机器人系统的数据扩充技术。在一个特定方面，提供了一种方法，所述方法包括：生成针对实体的要覆盖的值列表；从具有所述实体的上下文的数据集中选择话语；将所述话语转换为模板，其中，所述模板中的每个模板包括针对所述实体的映射到所述值列表的词槽；从所述模板中选择模板；基于所选模板内的词槽与针对所述实体的所述值列表之间的映射从所述值列表中选择值；以及基于所述所选模板和所选值创建人工话语，其中，创建所述人工话语包括将所述所选值插入所述所选模板的映射到针对所述实体的所述值列表的词槽中。词槽中。词槽中。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】在聊天机器人中实现稳健命名实体识别的实体级数据扩充
[0001]优先权要求
[0002]本申请是于2020年6月12日提交的美国临时申请号63/038,337的非临时申请并且要求所述美国临时申请的权益，所述美国临时申请出于所有目的通过援引以其全文并入本文。

[0003]本公开总体上涉及聊天机器人系统，并且更具体地涉及用于在自然语言处理中训练聊天机器人系统的数据扩充技术。

技术介绍

[0004]为了获得即时反应，世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而，雇用服务人员与客户或最终用户进行实时交流对于组织来说会是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话，尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流并且因此可以允许机器人与最终用户之间进行更加自然的会话以改善会话体验。不是最终用户去...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：由数据处理系统生成针对实体的要覆盖的值列表；由所述数据处理系统从具有所述实体的上下文的数据集中选择话语；由所述数据处理系统将所述话语转换为模板，其中，所述模板中的每个模板包括针对所述实体的映射到所述值列表的词槽；由所述数据处理系统从所述模板中选择模板；由所述数据处理系统基于所选模板内的词槽与针对所述实体的所述值列表之间的映射从所述值列表中选择值；以及由所述数据处理系统使用所述所选模板和所选值生成人工话语，其中，生成所述人工话语包括将所述所选值插入所述所选模板的所述词槽中。2.如权利要求1所述的方法，进一步包括：在从所述数据集中选择话语之前，由所述数据处理系统使用训练数据集训练模型，其中，所述训练数据集是所述数据集或其子集；由所述数据处理系统使用测试数据集或验证数据集测试所述模型；由所述数据处理系统基于对所述模型的所述测试来评估所述模型的性能；以及由所述数据处理系统基于所述评估来识别所述实体。3.如权利要求2所述的方法，进一步包括：由所述数据处理系统用所述人工话语扩充所述数据集或所述训练数据集，以生成已扩充的训练数据集；由所述数据处理系统使用所述已扩充的训练数据集来训练所述模型；由所述数据处理系统使用所述测试数据集或所述验证数据集或另一测试数据集或验证数据集重新测试所述模型；由所述数据处理系统基于对所述模型的所述重新测试来评估所述模型的性能；由所述数据处理系统确定所述模型的所述性能满足预定义标准；以及响应于所述模型满足所述预定义标准，将所述模型部署为聊天机器人系统的一部分。4.如权利要求1所述的方法，进一步包括：由所述数据处理系统确定所述所选模板内的所述词槽包括映射到所述值列表的第一元素以及映射到函数的第二元素；由所述数据处理系统基于所述所选模板内的所述词槽与所述函数之间的映射来处理所述函数，以生成函数值；以及由所述数据处理系统将所述所选值与所述函数值进行组合以获得词槽值，其中，生成所述人工话语包括将所述词槽值插入所述所选模板的所述词槽中。5.如权利要求1所述的方法，进一步包括：由所述数据处理系统确定所述所选模板映射到包括所述词槽和另一词槽的嵌套词槽映射集；由所述数据处理系统确定所述嵌套词槽映射集中的所述另一词槽映射到另一值列表；以及由所述数据处理系统基于所述所选模板内的另一词槽与所述另一值列表之间的映射从所述另一值列表中选择另一值，
其中，生成所述人工话语包括将所述所选值插入所述所选模板的所述词槽中并将所选另一值插入所述所选模板中的所述另一词槽中。6.如权利要求1所述的方法，进一步包括由所述数据处理系统用所述人工话语扩充所述数据集或训练数据集，以生成已扩充的训练数据集，用于训练模型以对包括所述实体的多个实体进行识别和分类。7.如权利要求1所述的方法，其中，所述模板是基于包括以下条件的启发式方法来选择的：(i)在具有多个实体分类的模板与具有单一实体分类的模板中做出选择；(ii)权衡模板种类与模板质量；(iii)根据上下文对模板进行归类；(iv)模型是否需要每个模板的最低出现次数/用户想要教导所述模型的独特上下文；或(v)以上各项的任何组合。8.一种系统，包括：一个或多个处理器；以及耦接至所述一个或多个处理器的存储器，所述存储器存储有能够由所述一个或多个处理器执行的多个指令，所述多个指令包括当由所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下操作的处理的指令：生成针对实体的要覆盖的值列表；从具有所述实体的上下文的数据集中选择话语；将所述话语转换为模板，其中，所述模板中的每个模板包括针对所述实体的映射到所述值列表的词槽；从所述模板中选择模板；基于所选模板内的词槽与针对所述实体的所述值列表之间的映射从所述值列表中选择值；以及使用所述所选模板和所选值生成人工话语，其中，生成所述人工话语包括将所述所选值插入所述所选模板的所述词槽中。9.如权利要求8所述的系统，其中，所述处理进一步包括：在从所述数据集中选择话语之前，使用训练数据集训练模型，其中，所述训练数据集是所述数据集或其子集；使用测试数据集或验证数据集测试所述模型；基于对所述模型的所述测试来评估所述模型的性能；以及基于所述评估来识别所述实体。10.如权利要求9所述的系统，其中，所述处理进一步包括：用所述人工话语扩充所述数据集或所述训练数据集，以生成已扩充的训练数据集；使用所述已扩充的训练数据集来训练所述模型；使用所述测试数据集或所述验证数据集或另一测试数...

【专利技术属性】
技术研发人员：S，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人