自动知识图构造制造技术

技术编号:37804348 阅读:20 留言:0更新日期:2023-06-09 09:34
可以提供一种用于构建新知识图的方法。该方法包括提供现有知识图,对通过现有知识图的随机游走进行采样,确定采样的随机游走的顶点和边的嵌入向量,以及以随机游走的嵌入向量的输入序列作为机器学习模型的训练。此外,方法包括:接收从来自文档的短语中确定词语序列的文档集;从来自短语的、所确定的词语序列中构建嵌入向量序列;以及使用来自短语的、所确定的词语序列的、所构建的嵌入向量序列作为经训练的机器学习模型的输入,用于预测第二词语序列的。最后,该方法包括合并预测的第二词语序列,从而构建新知识图。从而构建新知识图。从而构建新知识图。

【技术实现步骤摘要】
【国外来华专利技术】自动知识图构造

技术介绍

[0001]本专利技术一般涉及知识图,更具体地,涉及用于构建新知识图的方法。本专利技术还涉及用于构建知识图的知识图构造系统和计算机程序产品。
[0002]人工智能(AI)是IT(信息技术)行业中的热门课题中的一个话题。它是技术发展最快的领域中的一个领域。与大量算法和系统的快速开发并行的可用技术的缺乏使情况更糟。企业和科学在一些时候开始将知识和数据组织为包括事实与事实之间的关系的知识图。然而,从不断增长的数据量构建知识图是劳动密集型的并且不是明确的过程。需要大量经验。当前,典型的方法是限定特定的语法分析器并且对照信息语料库(例如多个文档)运行它们,以便检测事实之间的关系并且向它们分配特定的权重。然后,专家需要将它们放在新的知识图中。
[0003]即使对于最大的公司和组织,在大数据的不断变化的上下文中限定,编码和维护解析器以及维护相关联的基础设施也是困难的任务。解析器通常是内容和知识领域特定的,并且它们的开发可能需要高度熟练的人。因此,为一个知识领域开发的解析器不能以一对一的方式用于另一语料库或另一知识领域。r/>[0004]例本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于构建新知识图的方法,所述方法包括:接收至少一个现有知识图;对通过所述至少一个现有知识图的随机游走进行采样;确定针对所采样的所述随机游走的顶点和边的嵌入向量;对机器学习模型进行训练,从而建立能够预测词语序列的经训练的机器学习模型,将所述随机游走的所述嵌入向量的序列作为输入;提供文档集;从来自所述文档集的文档的短语确定词语序列;从来自所述短语的、所确定的所述词语序列构建嵌入向量序列;使用来自所述短语的、所确定的所述词语序列的、所构建的所述嵌入向量序列作为用于所述经训练的机器学习模型的输入,以用于预测第二词语序列;合并所预测的所述第二词语序列,从而构建所述新知识图。2.根据权利要求1所述的方法,还包括:接收包括词语查询序列的自然语言查询;确定针对所述词语查询序列的查询嵌入向量;以及使用所述经训练的机器学习模型,通过使用所述查询嵌入向量作为用于所述经训练的机器学习模型的输入来预测词语结果序列。3.根据权利要求2所述的方法,还包括:存储所预测的所述词语结果序列。4.根据权利要求2所述的方法,还包括:从所提供的、与所述词语结果序列有关的所述文档集返回文档和/或对文档的引用。5.根据权利要求2所述的方法,其中所述词语结果序列是所述知识图中的边和有关顶点序列。6.根据权利要求5所述的方法,其中自然语言系统将所述边和有关顶点序列转换成人类可理解的形式。7.根据权利要求1所述的方法,其中所述随机游走的起点从组被选择,所述组包括:所述现有知识图的随机选择的叶子、所述现有知识图的根、以及所述现有知识图的选择的顶点,其中所述选择基于预定义规则而被执行。8.根据权利要求1所述的方法,其中所述文档的所述短语从包括单个词语、多个后续词语和句子的组被选择。9.根据权利要求1所述的方法,其中所述机器学习模型是序列到序列机器学习模型。10.根据权利要求1所述的方法,其中所述文档集是文章、书籍、白皮书、报纸、会议议事、杂志、聊天协议、手稿、手写笔记、服务器日志或电子邮件帖子。11.根据权利要求1所述的方法,其中所述合并包括:从所预测的所述第二词语序列构建边和所链接的顶点的多个元组,其中所述新知识图的边和顶点对应于所提供的所述文档集中的词语,并且其中将词语表征为边或顶点的、针对词语的元数据被提供为经训练的机器学习系统的附加输出。12.根据权利要求11所述的方法,还包括:将针对所述边和所述顶点的起源数据分别与所述边和所述顶点一起存储。
13.一种用于构建知识图的知识图构造系统,所述知识图构造系统包括:一个或多个处理器;以及存储器,被通信地耦合到所述一个或多个处理器,存储程序指令,所述程序指令在由所述一个或多个处理器执行时,使所述一个或多个处理器执行操作,所述操作包括:接收至少一个现有知识图;对通过所述至少一个现有知识图的随机游走进行采样;确定针对所采样的所述随机游走的顶点和边的嵌入向量;训练机器学习模型,从而建立能够预测词语序列的经训练的机器学习模型,将所述随机游走的所述嵌入向量的序列作为输入;提供文档集;从来自所述文档集的文档的短语确定词语序列;从来自所述短语的、所确定的所述词语序列构...

【专利技术属性】
技术研发人员:L
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1