基于位矩阵模型的多元关系图谱数据存储及查询方法技术

技术编号:38548743 阅读:15 留言:0更新日期:2023-08-22 20:56
本发明专利技术提供一种基于位矩阵模型的多元关系图谱数据存储及查询方法,应用于对多元关系图谱数据的存储和索引构建,该存储方法包括:对多元关系图谱数据进行表示,并将多元关系图谱数据序列化为三元组和嵌入式三元组;使用位矩阵模型对三元组或嵌入式三元组数据进行建模和存储,采用矩阵分区的方式管理相同谓词下参与二元关系以及多元关系的实体数据;构建多元实体谓词索引,建立实体与二元关系和多元关系中各谓词的关联关系。本发明专利技术减少了传统位矩阵数据库管理多元关系图谱数据的存储空间占用,可有效提升面向多元关系图谱数据的检索效率。率。率。

【技术实现步骤摘要】
基于位矩阵模型的多元关系图谱数据存储及查询方法


[0001]本专利技术涉及知识图谱查询
,尤其涉及多元关系图谱数据的存储和查询技术。

技术介绍

[0002]知识图谱本质上是一种揭示实体之间关系的语义网络,以图的形式对例如对象、事件、情况以及概念等现实世界事物及事物之间的相互关系进行形式化地描述。随着知识图谱应用范围的扩大,其所描述知识的复杂程度也逐渐加深,例如在股权融资等部分场景下,参与关系的实体可能存在多个。然而,当前主流知识图谱采用的RDF(ResourceDescriptionFramework,资源描述框架)为基于二元实体关联的表示模式,由万维网联盟(W3C)于2004年发布,旨在解决语义网中多源数据融合的标准化问题,但其针对大量复杂多元关系的表示能力较弱。RDF可以用一个由顶点和边组成的图来表示一个或多个资源陈述,其中,被陈述的资源可称为主语(subject),陈述中该资源的属性以及属性值则分别称为谓词(predicate)和宾语(object)。其中,属性值宾语既可是其他资源主语,也可直接是字符串、整形等字面量(literal)。
[0003]位矩阵模型的提出主要是为了满足对大规模RDF数据建模需求。在位矩阵中,每行代表实体,每列代表一个三元组,在具体建模时,将谓词相同的三元组存放在一起,即一个子矩阵。位矩阵模型结构简单,表达能力强,能够很好地体现RDF数据的图特征,紧凑的数据结构提供了支持高效操作的压缩表示。此外,在此结构上能够很好地进行诸如路径检索等深化操作。
[0004]然而,现有位矩阵RDF数据库仅可解析和管理标准三元组格式的数据,故对多元关系图谱数据进行管理时需对数据中原三元组关系进行转化,例如RDF具化。如此将导致数据量以及数据复杂度的增加,从而占用更多的存储空间,以致于传统RDF存储引擎在检索过程中需要额外的连接操作或推理步骤。此外,现有位矩阵RDF数据库的索引结构无法区分二元关系以及多元关系,从而导致不必要的检索开销,检索性能下降。

技术实现思路

[0005]本专利技术解决的技术问题为:现有技术中大规模位矩阵RDF数据库建模需求中存在数据量以及数据复杂度过高、占用更多存储空间的问题,导致传统位矩阵RDF数据库存储引擎在检索过程中需要额外的连接操作或推理步骤,此外,现有位矩阵RDF数据库的索引结构无法区分二元关系以及多元关系,检索效率低。针对以上问题,本专利技术提供一种基于位矩阵模型的多元关系图谱数据存储及查询方法,具体采用了如下技术方案:
[0006]第一方面,本专利技术提供一种基于位矩阵的多元关系图谱数据的存储方法,应用于对多元关系图谱数据的存储和索引构建,包括如下步骤:
[0007]采用元图模型表示多元关系中的实体集合,并将多元关系图谱数据序列化为三元组或嵌入式三元组;
[0008]通过位矩阵模型对所述三元组或嵌入式三元组数据进行建模和存储,采用矩阵分区的方式管理相同谓词下参与二元关系以及多元关系的实体数据;
[0009]构建多元实体谓词索引,建立实体与二元关系和多元关系中各谓词的关联关系。
[0010]进一步的,采用元图模型表示多元关系中的实体集合,对多元关系图谱数据进行表示,并将多元关系图谱数据序列化为三元组或嵌入式三元组,包括:
[0011]通过元图模型对多元关系进行表示,并通过元图模型中的元点结构表示参与多元关系的实体集合;
[0012]通过Turtle语法将三元组多元关系中的主语或宾语表示为多个实体;
[0013]通过RDF

star语法将元点中包含的边描述为嵌入式三元组,用于表示参与多元关系的多个实体中的内部关系。
[0014]进一步的,使用位矩阵模型对所述三元组或嵌入式三元组数据进行建模和存储,采用矩阵分区的方式管理相同谓词下参与二元关系以及多元关系的实体数据,包括:
[0015]将三元组中各实体以及嵌入式三元组整体转换为整形标识符ID;
[0016]每个谓词对应的子存储矩阵分为二元以及多元两个区域,每个区域进一步分为按照主语ID有序以及宾语ID有序存储两个副本。
[0017]进一步的,将三元组中各实体以及嵌入式三元组整体转换为整形标识符ID,包括:
[0018]对于URI实体,将URI前缀通过哈希计算转化为前缀标识符ID后与URI后缀进行拼接,并通过哈希计算获取URI实体对应的ID;
[0019]对于字面量实体,通过对字面量进行哈希计算获取其对应的ID;
[0020]对于嵌入式三元组,通过分别计算主语、谓词以及宾语对应的ID,并将三个ID进行拼接并对其进行哈希计算获取嵌入式三元组整体对应的ID。
[0021]进一步的,所述多元实体谓词索引包括实体谓词存储数组和实体谓词检索映射表,其中:
[0022]以实体和与实体关联的二元及多元关系谓词作为基本存储单位,构造实体谓词存储数组;
[0023]采用键值存储结构,以实体ID作为键,该实体在实体谓词存储数组中对应的偏移量为值,构造实体谓词检索映射表。
[0024]进一步的,以实体和与实体关联的二元及多元关系谓词的作为基本存储单位,在基本存储单位中对实体的处理包括:
[0025]实体ID作为基本单位头部,后接多元谓词偏移标识,用以指明该实体所关联的多元关系谓词相对于该实体ID所处的偏移量;多元谓词偏移标识后接该实体所关联二元关系谓词数据;二元关系谓词数据后接多元关系谓词数据;多元关系谓词数据后接结束标识0;结束标识后接其他实体谓词信息,以此循环直至完成对所有实体的处理。
[0026]进一步的,采用键值存储结构,以实体ID作为键,该实体在实体谓词存储数组中对应的偏移量为值,构造实体谓词检索映射表,包括:
[0027]在构造实体谓词存储数组过程中获取实体ID在数组中所处偏移量;
[0028]将实体ID本身作为对应的哈希值与实体谓词检索映射表大小进行取余运算获取实体ID在映射表中的映射位置,在位置上存入该实体对应的偏移量信息。
[0029]第二方面,本专利技术提供一种基于位矩阵模型的多元关系图谱数据查询方法,基于
上述所述的多元关系图谱数据存储方法进行,包括:
[0030]解析查询语句,识别查询类型以及查询模式;
[0031]根据查询类型和查询模式直接获取或根据多元实体谓词索引获取谓词及其存储矩阵;
[0032]根据查询类型选择检索区域执行查询,连接各查询模式结果集返回最终查询结果。
[0033]进一步的,所述查询类型包括二元关系查询以及多元关系查询;
[0034]二元关系查询由SPARQL查询语句中所描述查询图中的普通三元组所构造;
[0035]多元关系查询包括多元关系至实体查询、实体至多元关系查询、实体至实体查询以及多元关系至多元关系查询,其中:
[0036]多元关系至实体查询,根据已知的实体及谓词获取该多元关系关联的其他参与实体集合;
[0037]实体至多元关系查询本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于位矩阵的多元关系图谱数据的存储方法,应用于对多元关系图谱数据的存储和索引构建,其特征在于,包括如下步骤:采用元图模型表示多元关系中的实体集合,并将多元关系图谱数据序列化为三元组或嵌入式三元组;通过位矩阵模型对所述三元组或嵌入式三元组数据进行建模和存储,采用矩阵分区的方式管理相同谓词下参与二元关系以及多元关系的实体数据;构建多元实体谓词索引,建立实体与二元关系和多元关系中各谓词的关联关系。2.如权利要求1所述的基于位矩阵的多元关系图谱数据的存储方法,其特征在于,采用元图模型表示多元关系中的实体集合,并将多元关系图谱数据序列化为三元组或嵌入式三元组,包括:通过元图模型中的元点结构表示参与多元关系的实体集合;通过Turtle语法将三元组多元关系中的主语或宾语表示为多个实体;通过RDF

star语法将元点中包含的边描述为嵌入式三元组,用于表示参与多元关系的多个实体中的内部关系。3.如权利要求1所述的基于位矩阵的多元关系图谱数据的存储方法,其特征在于,使用位矩阵模型对所述三元组或嵌入式三元组数据进行建模和存储,采用矩阵分区的方式管理相同谓词下参与二元关系以及多元关系的实体数据,包括:将三元组中各实体以及嵌入式三元组整体转换为整形标识符ID;每个谓词对应的子存储矩阵分为二元以及多元两个区域,每个区域进一步分为按照主语ID有序以及宾语ID有序存储两个副本。4.根据权利要求3所述的基于位矩阵的多元关系图谱数据的存储方法,其特征在于,将三元组中各实体以及嵌入式三元组整体转换为整形标识符ID,包括:对于URI实体,将URI前缀通过哈希计算转化为前缀标识符ID后与URI后缀进行拼接,并通过哈希计算获取URI实体对应的ID;对于字面量实体,通过对字面量进行哈希计算获取其对应的ID;对于嵌入式三元组,通过分别计算主语、谓词以及宾语对应的ID,并将三个ID进行拼接并对其进行哈希计算获取嵌入式三元组整体对应的ID。5.根据权利要求1所述的基于位矩阵的多元关系图谱数据的存储方法,其特征在于,所述多元实体谓词索引包括实体谓词存储数组和实体谓词检索映射表,其中:以实体和与实体关联的二元及多元关系谓词作为基本存储单位,构造实体谓词存储数组;采用键值存储结构,以实体ID作为键,该实体在实体谓词存储数组中对应的偏移量为值,构造实体谓词检索映射表。6.根据权利要求5所述的基于位矩阵的多元关系图谱数据的存储方法,其特征在于,以实体和与实体关联的二元及多元关系谓词的作为基本存储单位,在基本存储单位中对实体的处理包...

【专利技术属性】
技术研发人员:刘宇周天翼张晓龙高峰顾进广
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1