超大规模知识图谱存储的索引方法、系统及计算机设备技术方案

技术编号:34645772 阅读:25 留言:0更新日期:2022-08-24 15:22
本发明专利技术涉及到一种超大规模知识图谱存储的索引方法,该方法具体包括有如下步骤:将索引的输入分为实体、关系三元组和属性三元组三种类型;使用BERT兼容模型对三种类型的输入分别进行编码,分别输出三类输入的向量表示;多层感知机根据接收的向量表示,回归出数据存储的起始位置和物理存储的长度;根据起始位置和物理存储长度,访问保持物理存储设备上的知识图谱数据,实现超大规模知识图谱存储的智能索引;还涉及到一种大规模知识图谱存储智能的索引系统及计算机设备。本发明专利技术的索引方法、系统及计算机设备适合于大规模语义化的知识图谱的智能索引,以提升检索的效率,为基于知识图谱的智能推理提供更加便捷的服务。谱的智能推理提供更加便捷的服务。谱的智能推理提供更加便捷的服务。

【技术实现步骤摘要】
超大规模知识图谱存储的索引方法、系统及计算机设备


[0001]本专利技术涉及人工智能领域,特别涉及到一种超大规模知识图谱存储的索引方法、系统及计算机设备。

技术介绍

[0002]随着知识图谱的应用日趋广泛,日趋深入,各大型企业致力于将无处不在的知识构建出巨大的知识图谱,并在不同场景中提供知识型的应用。这些知识图谱的实体能够高达数十亿条,而关系三元组和属性三元组的数量规模则能够达到数百亿条、数千亿条甚至万亿条的级别。在如此超大规模的知识图谱存储中,如何进行高效检索是一个巨大的挑战。实现实体的实时检索,实现在线多跳查询和关系分析,实现秒级的复杂分析等,是超大规模知识图谱工程实践和产业应用的迫切需求。
[0003]传统的知识图谱存储通常采用图数据库或关系型数据库,其物理模型通常实用 B+树或哈希算法,其映射关系是简单的算数。对于小规模的知识图谱来说,现有的普通的索引方式已经足够实用,不需要实用智能索引的方法就能够胜任了。而对于超大规模的知识图谱来说,现有的索引方法效率低,甚至不可行,从而需要一种更加实用和智能的索引方式。<br/>
技术实现思路
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种超大规模知识图谱存储的索引方法,所述超大规模知识图谱是指知识图谱中含有百亿条、千亿条乃至万亿条规模的三元组数量,其特征在于,该超大规模知识图谱存储在索引时基于深度学习模型来实现哈希计算,获得物理存储的起始位置和存储长度,该方法具体包括有如下步骤:第一步,将索引的输入分为实体、关系三元组和属性三元组三种类型,基于三种输入类型设计智能哈希算法,该智能哈希算法架构上包括有BERT兼容模型、汇聚网络和多层感知机;第二步,使用所述BERT兼容模型对三种类型的输入分别进行编码和学习,并将学习得到的向量发送至汇聚网络中;第三步,在所述的汇聚网络中,对于实体,将所有实体的邻接顶点和关联边进行汇聚,输出对应实体的向量表示;对于关系三元组和属性三元组,对三元组本身进行学习,分别输出对应关系三元组的向量表示和对应属性三元组的向量表示;第四步,将所述汇聚网络获得的向量表示分别输入至所述多层感知机中,回归出数据存储的起始位置和物理存储的长度;第五步,根据输出的起始位置和物理存储长度,访问保持物理存储设备上的知识图谱数据,实现超大规模知识图谱存储的智能索引。2.根据权利要求1所述的一种超大规模知识图谱存储的索引方法,其特征在于,所述的第一步中,对于每次索引输入,三种输入类型分别以,和进行表示,具体分别为:若为实体,输入为,和为空;若为关系三元组,为头实体,为关系,为尾实体;若为属性三元组,为实体,为属性名,为属性值。3.根据权利要求1所述的一种超大规模知识图谱存储的索引方法,其特征在于,所述的第二步中,所述BERT 兼容模型的输入若为实体,则输出即对应实体的向量表示;若输入为关系,则输出为对应关系的向量表示,将输出的向量作为下一个步骤汇聚网络的输入。4.根据权利要求3所述的一种超大规模知识图谱存储的索引方法,其特征在于,所述的第二步中,所述BERT兼容模型的编码过程如下:S21.将实体或关系所对应的文本切分成词元序列,若输入为中文按字切分,如果输入中包含有英文单词,则直接使用空格进行切分;S22.在词元序列中加入位置信息,即每个词元在词元顺序中的序号,若输入中还有上下句编码,则设定上下句的输入都为0;S23.对每一个输入,通过嵌入的方式获得各自的向量表示,将向量进行加和得到模型的输入向量;S24.模型对输入向量进行表示学习,最后通过模型的位置获取所...

【专利技术属性】
技术研发人员:王文广陈运文纪达麒
申请(专利权)人:达而观数据成都有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1