将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档制造技术

技术编号:38376567 阅读:13 留言:0更新日期:2023-08-05 17:37
一种装置包括处理设备,该处理设备被配置为接收从文档中提取信息的查询,并且执行利用基于机器学习的信息提取模型的两次或更多次迭代来从文档中提取非结构化文本数据的部分。在每次迭代中,从文档中提取的非结构化文本数据的部分和关联相关性得分被输出。在第一次迭代中,输入查询和文档,而在随后的迭代中输入查询和文档的修改版本,修改版本将非结构化文本数据的先前提取的部分从其中移除。处理设备还被配置为生成对查询的响应,该响应包括从文档提取的非结构化文本数据的、被确定为具有超过阈值相关性得分的关联相关性得分和与查询的至少阈值相似度等级的部分的子集。的至少阈值相似度等级的部分的子集。的至少阈值相似度等级的部分的子集。

【技术实现步骤摘要】
【国外来华专利技术】将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档


[0001]本领域总体涉及信息处理,并且更具体地涉及用于管理数据的技术。

技术介绍

[0002]在许多信息处理系统中,以电子方式存储的数据是非结构化格式,其中文档包括很大一部分非结构化数据。然而,收集和分析可能限于高度结构化的数据,因为非结构化文本数据需要特殊处理。例如,非结构化文本数据可能需要人工筛选,其中由服务人员对非结构化文本数据的语料库进行审查和采样。备选地,非结构化文本数据可能需要对可以用于确定与预定义的感兴趣主题的对应关系的大规则集的手动定制和维护。这种处理过于繁琐和耗时,尤其是对于大量非结构化文本数据。

技术实现思路

[0003]本专利技术的说明性实施例提供了用于将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档的技术。
[0004]在一个实施例中,一种装置包括至少一个处理设备,包括耦合到存储器的处理器。至少一个处理设备被配置为执行步骤:接收从文档提取信息的查询,文档包括非结构化文本数据;以及执行利用基于机器学习的信息提取模型的两次或更多次迭代,以从文档提取非结构化文本数据的部分。在两次或更多次迭代中的每次迭代中,基于机器学习的信息提取模型提供从文档提取的非结构化文本数据的部分以及与在迭代中从文档提取的非结构化文本数据的部分相关联的相关性得分作为输出,其中在两次或更多次迭代中的第一迭代中,基于机器学习的信息提取模型将查询和文档作为输入。在两次或更多次迭代中的后续迭代中,基于机器学习的信息提取模型将查询和文档的修改版本作为输入,其中在两次或更多次迭代中的一次或多次先前迭代中提取的文档的非结构化文本数据的一个或多个部分从中移除。至少一个处理设备还被配置为执行以下步骤:确定在两次或更多次迭代中从文档提取的非结构化文本数据的部分是否具有超过阈值相关性得分的关联相关性得分和与查询的至少阈值相似度等级;以及生成对查询的响应,对查询的响应包括在两次或更多次迭代中从文档提取的非结构化文本数据的、被确定为具有超过阈值相关性得分的关联相关性得分和与查询的至少阈值相似度等级的部分的子集。
[0005]这些和其他说明性实施例包括但不限于方法、装置、网络、系统和处理器可读存储介质。
附图说明
[0006]图1A和图1B是在本专利技术的说明性实施例中,用于将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档的信息处理系统的框图。
[0007]图2是在说明性实施例中,用于将基于机器学习的信息提取模型迭代应用于具有
非结构化文本数据的文档的示例性过程的流程图。
[0008]图3示出了在说明性实施例中,用于问题回答深度学习模型的递归应用的过程流。
[0009]图4示出了说明性实施例中的非结构化文本数据的示例。
[0010]图5A和图5B示出了在说明性实施例中,使用输入问题将图3的问题回答深度学习模型递归地应用于图4的非结构化文本数据的迭代。
[0011]图6A至图6D示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用从图4的非结构化文本数据中提取的回答表,以及通过输入问题产生最终回答。
[0012]图7A和图7B示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用从图4的非结构化文本数据中提取的回答表,以及利用另一输入问题以产生最终回答。
[0013]图8A和图8B示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用从图4的非结构化文本数据中提取的回答表,以及利用另一输入问题产生最终回答。
[0014]图9A和图9B示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用从非结构化文本数据中提取的回答表和非结构化文本数据的另一示例。
[0015]图10A和图10B示出了在说明性实施例中,问题回答模型的递归应用相对于问题回答模型的非递归应用的改进性能。
[0016]图11示出了说明性实施例中的非结构化文本数据的另一示例。
[0017]图12示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用的第一阈值从图11的非结构化文本数据中提取的回答表,以及利用输入问题产生最终回答。
[0018]图13A至图13C示出了在说明性实施例中,使用图3的问题回答深度学习模型的递归应用的第二阈值从图11的非结构化文本数据中提取的回答表,以及利用输入问题产生最终回答。
[0019]图14和图15示出了在说明性实施例中,可以用于实现信息处理系统的至少部分的处理平台的示例。
具体实施方式
[0020]本文将参考示例性信息处理系统和相关联的计算机、服务器、存储设备和其他处理设备来描述说明性实施例。然而,应当理解,实施例不限于与所示的特定说明性系统和设备配置一起使用。因此,本文使用的术语“信息处理系统”被广泛地解释为包括例如包括云计算和存储系统的处理系统,以及包括物理和虚拟处理资源的各种组合的其他类型的处理系统。因此,信息处理系统可以包括例如至少一个数据中心或其他类型的基于云的系统,其包括托管访问云资源的租户的一个或多个云。
[0021]图1A和图1B示出了根据说明性实施例配置的相应的信息处理系统100A和100B。假设信息处理系统100A和100B被构建在至少一个处理平台上,并且提供用于将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档的功能。
[0022]图1A的信息处理系统100A包括企业维修中心102A和多个客户端设备104

1,104

2,

104

M(统称为客户端设备104)。企业维修中心102A和客户端设备104耦合到网络106。还耦合到网络106的是文档数据库108,其可以存储与文档相关的各种信息,诸如与也耦合到网络106的信息技术(IT)基础设施110A的资产相关联的技术支持呼叫和聊天日志。假设这样的技术支持呼叫和聊天日志由企业维修中心102A的基于机器学习的故障排除系统
112A分析,以便生成针对要对这些资产执行的维修动作的推荐。资产可以包括例如,IT基础设施110A中的物理和虚拟计算资源。物理计算资源可以包括物理硬件,例如服务器、存储系统、网络设备、物联网(IoT)设备、其他类型的处理和计算设备,包括台式机、膝上型计算机、平板计算机、智能电话等。虚拟计算资源可以包括虚拟机(VM)、容器等。
[0023]客户端设备104可以包括例如物理计算设备,诸如物联网(IoT)设备、移动电话、膝上型计算机、平板计算机、台式计算机或企业成员使用的其他类型的设备,以任何组合的方式。这样的设备是本文中更一般地称为“处理设备”的示例。这些处理设备中的一些处理设备在本文中也通常被称为“计算机”。客户端设备104还可以或备选地包括虚拟计算资源,诸如虚拟机(VM)、容器等。
[0024]在一些实施例中,客户端设备104包括与特定公司、组织或其他企业相关联的相应计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:至少一个处理设备,包括被耦合到存储器的处理器;所述至少一个处理设备被配置为执行步骤:接收从文档提取信息的查询,所述文档包括非结构化文本数据;执行利用基于机器学习的信息提取模型的两次或更多次迭代,其中在所述两次或更多次迭代中的每次迭代中,所述基于机器学习的信息提取模型提供从所述文档提取的所述非结构化文本数据的部分以及与在所述迭代中从所述文档提取的所述非结构化文本数据的所述部分相关联的相关性得分作为输出,其中在所述两次或更多次迭代中的第一迭代中,所述基于机器学习的信息提取模型将所述查询和所述文档作为输入,并且其中在所述两次或更多次迭代中的后续迭代中,所述基于机器学习的信息提取模型将所述查询和所述文档的修改版本作为输入,其中在所述两次或更多次迭代中的一次或多次先前迭代中提取的所述文档的所述非结构化文本数据的一个或多个部分从中被移除;确定在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的所述部分是否具有超过阈值相关性得分的关联相关性得分和与所述查询的至少阈值相似度等级;以及生成对所述查询的响应,对所述查询的所述响应包括在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的、被确定为具有超过所述阈值相关性得分的关联相关性得分和与所述查询的至少所述阈值相似度等级的所述部分的子集。2.根据权利要求1所述的装置,其中所述基于机器学习的信息提取模型包括问题回答自然语言处理模型。3.根据权利要求2所述的装置,其中所述问题回答自然语言处理模型包括来自转换器模型的双向编码器表示。4.根据权利要求1所述的装置,其中执行所述两次或更多次迭代包括:执行迭代,直到达到一个或多个指定停止条件。5.根据权利要求4所述的装置,其中所述一个或多个指定停止条件包括:迭代的阈值次数;以及确定从所述文档提取的针对所述非结构化文本数据的部分的所述相关性得分具有等于或低于所述阈值相关性得分的相关性得分。6.根据权利要求1所述的装置,其中在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的所述部分的所述子集还具有超过阈值长度的长度。7.根据权利要求1所述的装置,其中确定在给定迭代中从所述文档提取的非结构化文本数据的给定部分是否具有与所述查询的至少所述阈值相似度等级包括:将所述查询和所述非结构化文本数据的给定部分转换成相应的第一文档向量和第二文档向量;计算所述第一文档向量与所述第二文档向量之间的相似度得分;当所计算的所述相似度得分等于或高于指定相似度阈值时,将所述非结构化文本数据的给定部分附加到对所述查询的所述响应;以及当所计算的所述相似度得分低于所述指定相似度阈值时,避免将所述非结构化文本数据的给定部分附加到对所述查询的所述响应。
8.根据权利要求7所述的装置,其中将所述查询和所述非结构化文本数据的给定部分转换成相应的第一向量和第二向量包括:利用段落向量的分布式存储器模型和段落向量的分布式词包模型中的至少一个。9.根据权利要求7所述的装置,其中计算所述第一文档向量与所述第二文档向量之间的相似度得分包括:计算所述第一文档向量与所述第二文档向量之间的余弦相似度。10.根据权利要求1所述的装置,其中在所述两次或更多次迭代中的给定后续迭代中被用作对所述基于机器学习的信息提取模型的输入的所述文档的所述修改版本具有从中被移除的、在所述两次或更多次迭代中的一次或多次先前迭代中提取的所述非结构化文本数据的一个或多个部分、以及从中被移除的、表现出与在所述两次或更多次迭代中的所述一次或多次先前迭代中提取的所述非结构化文本数据的所述一个或多个部分的阈值相似度等级的所述非结构化文本数据的一个或多个附加部分。11.根据权利要求1所述的装置,其中所述文档包括与信息技术基础设施的给定资产相关联的支持聊天日志和支持呼叫日志中的至少一个。12.根据权利要求11所述的装置,其中所述至少一个处理设备还被配置为执行以下步骤:至少部分地基于对所述查询的所述响应来标识针对所述给定资产的推荐故障排除动作;以及对所述给定资产执行所述推荐故障排除动作。13.根据权利要求12所述的装置,其中所述推荐故障排除动作包括诊断动作和维修动作中的至少一个动作。14.根据权利要求13所述的装置,其中所述给定资产包括计算设备,并且其中所述推荐故障排除动作包括修改以下至少一个:所述计算设备的一个或多个软件组件;以及所述计算设备的一个或多个硬件组件。15.一种计算机程序产品,包括其中存储有一个或多个软件程序的程序代码的非瞬态处理器可读存储介质,其中所述程序代码当由至少一个处理设备执行时,使所述至少一个处理设...

【专利技术属性】
技术研发人员:R
申请(专利权)人:戴尔产品有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1