自动知识图谱构建制造技术

技术编号:37178800 阅读:36 留言:0更新日期:2023-04-20 22:46
在用于自动知识图谱构建的方法中,处理器接收文本文档并训练第一机器学习系统以预测文本文档中的实体。由此,具有标记的实体的文本文档被用作训练数据。处理器训练第二机器学习系统以预测实体之间的关系数据,其中,使用现有知识图谱的实体和边以及所确定的实体和边的嵌入向量作为训练数据。处理器接收第二文本文档的集合,从中确定第二嵌入向量,并且预测实体和边;由此将第二文本文档的集合、所确定的第二嵌入向量、以及所预测的实体和所预测的实体的相关联的嵌入向量用作用于第一和第二经训练的机器学习模型的输入。处理器构建表示新知识图谱的实体和边的三元组。示新知识图谱的实体和边的三元组。示新知识图谱的实体和边的三元组。

【技术实现步骤摘要】
【国外来华专利技术】自动知识图谱构建

技术介绍

[0001]本专利技术总体上涉及知识图谱,并且更具体地涉及具有自动知识定义的自动知识图谱构建。
[0002]人工智能(AI)是信息技术(IT)行业最热门的主题之一。它是技术发展最快的领域之一。缺乏与大量算法和系统的快速发展并行的可用技能使得情况甚至更糟。企业和研究所在某个时间前已经开始将知识和数据组织成包括事实和事实之间的关系的知识图谱。然而,从不断增长的数据量构建知识图谱是劳动密集的且定义不明确的过程。需要很多经验。
[0003]当前,典型的方法是定义特定的解析器并且针对信息语料库(例如,多个文档)运行它们,以便识别事实之间的关系并且向它们分配特定的权重。然后,专家必须将它们放在一个新构建的知识图中。在大数据的不断变化的上下文中定义、编码和维护解析器以及维护相关联的基础设施是一项艰巨的任务,即使对于最大的公司和组织也是如此。解析器通常是特定于内容和知识领域的,并且其开发可能需要高技能人员。由此,为特定知识领域开发的解析器不能以一对一的方式用于另一语料库和/或另一知识领域。

技术实现思路

[0004]根据本专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于构建新知识图谱的计算机实现的方法,所述方法包括:接收第一文本文档;训练第一机器学习系统以开发适于预测所述第一文本文档中的第一实体的第一预测模型,其中来自所述第一文本文档的经标记的实体被用作第一训练数据;训练第二机器学习系统以开发适于预测所述第一实体之间的第一边的第二预测模型,其中,现有知识图谱的现有实体和现有边以及所确定的所述现有实体和所述现有边的第一嵌入向量被用作第二训练数据;接收第二文本文档集合;从所述第二文本文档集合的文本片段中确定第二嵌入向量;通过使用所述第二文本文档集合和所述第二嵌入向量作为第一训练机器学习模型的输入来预测所述第二文本文档集合中的第二实体;通过使用所述第二实体和所述第二实体的相关联的嵌入向量作为第二训练机器学习模型的输入来预测所述第二文本文档集合中的第二边;以及构建所述第二实体和相关的第二边的三元组以构建新的知识图谱。2.根据权利要求1所述的计算机实现的方法,进一步包括:响应于第二实体具有低于预定实体阈值的置信度水平值,从所述第二实体移除第二实体。3.根据权利要求1所述的计算机实现的方法,进一步包括:响应于第二边具有低于预定边阈值的置信度水平值,从所述第二边移除第二边。4.根据权利要求1所述的计算机实现的方法,其中,使用监督机器学习方法来训练所述第一机器学习系统和所述第二机器学习系统。5.根据权利要求4所述的计算机实现的方法,其中,用于所述第一机器学习系统的所述监督机器学习方法是随机森林机器学习方法。6.根据权利要求1所述的计算机实现的方法,其中,所述第二机器学习系统选自包括神经网络系统、强化学习系统和序列到序列机器学习系统的组。7.根据权利要求1所述的计算机实现的方法,其中,所述第二实体中的实体是实体类型的。8.根据权利要求1所述的计算机实现的方法,进一步包括:为每个预测的第一实体执行解析器;以及确定至少一个实体实例。9.根据权利要求1所述的计算机实现的方法,其中,所述第一文档是多个文档。10.根据权利要求1所述的计算机实现的方法,进一步包括:将起源数据与所述三元组一起存储到所述第二实体和所述第二边的第二文本文档集合中的文档。11.根据权利要求1所述的计算机实现的方法,其中,所述第二文本文档集合是文章、书、报纸、会议程序、杂志、聊天协议、手稿、手写笔记、服务器日志以及电子邮件线程中的至少一种。12.根据权利要求1所述的计算机实现的方法,其中,作为用于第一机器学习模型的训练的输入,将所确定的标记实体的第一嵌入向量用作训练数据。
13.一种用于构建知识图谱的知识图谱构建系统,所述知识图谱构建系统包括:一个或多个计算机处理器;一个或多个计算机可读存储介质;存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一者执行的程序指令,所述程序指令包括:用于接收第一文本文档的程序指令;用于训练第一机器学习系统以开发适于预测所述第一文本文档中的第一实体的第一预测模型的程序指令,其中来自所述第一文本文档的经标记...

【专利技术属性】
技术研发人员:L
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1