【技术实现步骤摘要】
【国外来华专利技术】将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档
[0001]本领域总体涉及信息处理,并且更具体地涉及用于管理数据的技术。
技术介绍
[0002]在许多信息处理系统中,以电子方式存储的数据是非结构化格式,其中文档包括很大一部分非结构化数据。然而,收集和分析可能限于高度结构化的数据,因为非结构化文本数据需要特殊处理。例如,非结构化文本数据可能需要人工筛选,其中由服务人员对非结构化文本数据的语料库进行审查和采样。备选地,非结构化文本数据可能需要对可以用于确定与预定义的感兴趣主题的对应关系的大规则集的手动定制和维护。这种处理过于繁琐和耗时,尤其是对于大量非结构化文本数据。
技术实现思路
[0003]本专利技术的说明性实施例提供了用于将基于机器学习的信息提取模型迭代应用于具有非结构化文本数据的文档的技术。
[0004]在一个实施例中,一种装置包括至少一个处理设备,包括耦合到存储器的处理器。至少一个处理设备被配置为执行步骤:接收从文档提取信息的查询,文档包括非结构化文本数据;以及执行利用基于机器学习的信息提取模型的两次或更多次迭代,以从文档提取非结构化文本数据的部分。在两次或更多次迭代中的每次迭代中,基于机器学习的信息提取模型提供从文档提取的非结构化文本数据的部分以及与在迭代中从文档提取的非结构化文本数据的部分相关联的相关性得分作为输出,其中在两次或更多次迭代中的第一迭代中,基于机器学习的信息提取模型将查询和文档作为输入。在两次或更多次迭代中的后续迭代中,基于机器学习的信息提取模型将查询 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种装置,包括:至少一个处理设备,包括被耦合到存储器的处理器;所述至少一个处理设备被配置为执行步骤:接收从文档提取信息的查询,所述文档包括非结构化文本数据;执行利用基于机器学习的信息提取模型的两次或更多次迭代,其中在所述两次或更多次迭代中的每次迭代中,所述基于机器学习的信息提取模型提供从所述文档提取的所述非结构化文本数据的部分以及与在所述迭代中从所述文档提取的所述非结构化文本数据的所述部分相关联的相关性得分作为输出,其中在所述两次或更多次迭代中的第一迭代中,所述基于机器学习的信息提取模型将所述查询和所述文档作为输入,并且其中在所述两次或更多次迭代中的后续迭代中,所述基于机器学习的信息提取模型将所述查询和所述文档的修改版本作为输入,其中在所述两次或更多次迭代中的一次或多次先前迭代中提取的所述文档的所述非结构化文本数据的一个或多个部分从中被移除;确定在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的所述部分是否具有超过阈值相关性得分的关联相关性得分和与所述查询的至少阈值相似度等级;以及生成对所述查询的响应,对所述查询的所述响应包括在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的、被确定为具有超过所述阈值相关性得分的关联相关性得分和与所述查询的至少所述阈值相似度等级的所述部分的子集。2.根据权利要求1所述的装置,其中所述基于机器学习的信息提取模型包括问题回答自然语言处理模型。3.根据权利要求2所述的装置,其中所述问题回答自然语言处理模型包括来自转换器模型的双向编码器表示。4.根据权利要求1所述的装置,其中执行所述两次或更多次迭代包括:执行迭代,直到达到一个或多个指定停止条件。5.根据权利要求4所述的装置,其中所述一个或多个指定停止条件包括:迭代的阈值次数;以及确定从所述文档提取的针对所述非结构化文本数据的部分的所述相关性得分具有等于或低于所述阈值相关性得分的相关性得分。6.根据权利要求1所述的装置,其中在所述两次或更多次迭代中从所述文档提取的所述非结构化文本数据的所述部分的所述子集还具有超过阈值长度的长度。7.根据权利要求1所述的装置,其中确定在给定迭代中从所述文档提取的非结构化文本数据的给定部分是否具有与所述查询的至少所述阈值相似度等级包括:将所述查询和所述非结构化文本数据的给定部分转换成相应的第一文档向量和第二文档向量;计算所述第一文档向量与所述第二文档向量之间的相似度得分;当所计算的所述相似度得分等于或高于指定相似度阈值时,将所述非结构化文本数据的给定部分附加到对所述查询的所述响应;以及当所计算的所述相似度得分低于所述指定相似度阈值时,避免将所述非结构化文本数据的给定部分附加到对所述查询的所述响应。
8.根据权利要求7所述的装置,其中将所述查询和所述非结构化文本数据的给定部分转换成相应的第一向量和第二向量包括:利用段落向量的分布式存储器模型和段落向量的分布式词包模型中的至少一个。9.根据权利要求7所述的装置,其中计算所述第一文档向量与所述第二文档向量之间的相似度得分包括:计算所述第一文档向量与所述第二文档向量之间的余弦相似度。10.根据权利要求1所述的装置,其中在所述两次或更多次迭代中的给定后续迭代中被用作对所述基于机器学习的信息提取模型的输入的所述文档的所述修改版本具有从中被移除的、在所述两次或更多次迭代中的一次或多次先前迭代中提取的所述非结构化文本数据的一个或多个部分、以及从中被移除的、表现出与在所述两次或更多次迭代中的所述一次或多次先前迭代中提取的所述非结构化文本数据的所述一个或多个部分的阈值相似度等级的所述非结构化文本数据的一个或多个附加部分。11.根据权利要求1所述的装置,其中所述文档包括与信息技术基础设施的给定资产相关联的支持聊天日志和支持呼叫日志中的至少一个。12.根据权利要求11所述的装置,其中所述至少一个处理设备还被配置为执行以下步骤:至少部分地基于对所述查询的所述响应来标识针对所述给定资产的推荐故障排除动作;以及对所述给定资产执行所述推荐故障排除动作。13.根据权利要求12所述的装置,其中所述推荐故障排除动作包括诊断动作和维修动作中的至少一个动作。14.根据权利要求13所述的装置,其中所述给定资产包括计算设备,并且其中所述推荐故障排除动作包括修改以下至少一个:所述计算设备的一个或多个软件组件;以及所述计算设备的一个或多个硬件组件。15.一种计算机程序产品,包括其中存储有一个或多个软件程序的程序代码的非瞬态处理器可读存储介质,其中所述程序代码当由至少一个处理设备执行时,使所述至少一个处理设...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。