当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于关系模型的RDF图和属性图统一存储方法技术

技术编号:22755083 阅读:35 留言:0更新日期:2019-12-07 03:58
本发明专利技术公开了一种基于关系模型的RDF图和属性图统一存储方法,根据知识图谱的两种数据模型RDF图模型和属性图模型的定义、特点以及关系表的存储理念,将RDF图和属性图两种逻辑模型在底层以关系表的物理模型存储,包括RDF图的底层存储和属性图的底层存储。即将RDF图和属性图的全部语义信息在底层以关系表形式存储,对于RDF三超图结构,维护一张系统表实现管理RDF图中某些边的边点双份存储。本发明专利技术可以解决RDF图和属性图的语义表达能力的差异的问题,实现了大规模的知识图谱数据存储与管理,并有效减少了数据的冗余,实现高效的查询,具有较强的应用价值。

A unified storage method of RDF graph and attribute graph based on relation model

The invention discloses a unified storage method of RDF graph and attribute graph based on relation model. According to the definition, characteristics and storage concept of relation table of two data models RDF graph model and attribute graph model of knowledge graph, two logical models RDF graph and attribute graph are stored in the physical model of relation table at the bottom layer, including the bottom layer storage of RDF graph and attribute graph. The semantic information of RDF graph and attribute graph is stored in the form of relational table at the bottom. For RDF three hypergraph structure, a system table is maintained to manage the edge points of some edges in RDF graph. The invention can solve the problem of the difference of semantic expression ability between RDF graph and attribute graph, realize large-scale storage and management of knowledge graph data, effectively reduce the redundancy of data, realize efficient query, and have strong application value.

【技术实现步骤摘要】
一种基于关系模型的RDF图和属性图统一存储方法
本专利技术涉及知识图谱领域,RDF存储与和属性图存储。
技术介绍
知识图谱作为符号主义发展的最新成果,是人工智能的重要基石。各领域中大规模知识图谱的构建和发布对知识图的数据管理提出了新的挑战。知识图数据模型基于图结构,用顶点表示实体、边表示实体之间的关系,这种通用的数据表示可以自然地描述现实世界中事物之间的广泛联系。目前,知识图谱有两种主流数据模型,即RDF(ResourceDescriptionFramework,资源描述框架)模型和属性图模型。前者已由W3C(WorldWideWebConsortium)标准化,后者已广泛用于图形数据库。RDF图模型具有较强的逻辑理论背景和较完善的数据模型特征。与RDF模型类似,属性图模型内置了对结点和边的属性的支持。虽然属性图还没有标准化,但是随着图数据库的应用,属性图在工业界中已经得到了广泛的认可。RDF图的超图结构证明了RDF图模型比属性图模型具有更强的表达能力,但至今依然没有一个统一的存储方案来有效地对知识图谱进行存储和管理。经过几十年的发展,关系模型已经具有了很高的成熟度。关系数据模型(relationaldatamodel)具有简洁而通用的关系结构,并且使用具有严格数学定义的关系代数表达式来表示关系上的操作和约束。因此,这为使用关系数据模型来统一存储RDF和属性图提供了坚实的理论基础。1.现有的RDF图存储方案:现有的RDF图数据典型的管理方案主要有两种:即基于关系的方法和基于图的方法。基于关系的方法以多种方式将RDF图数据映射到关系表中,然后对它们执行SPARQL查询。另一种基于图的管理方案将RDF和SPARQL查询建模为图,并通过子图匹配来进行查询。(1)基于关系的存储方案关系数据库是目前应用最广泛的数据库管理系统。基于关系数据库的存储方案是目前知识图谱数据的主要存储方法。三元组表直接存储RDF数据;水平表每行记录一个主语的所有谓语和宾语;属性表根据主语的类来构建数据表,并提出了属性表方案和技术来解决三元组表方案中的查询性能问题;垂直划分根据谓词来构建数据;六重索引将三元组全部6种排列对应的建立为6张表。以及最近几年的DB2RDF通过建立面向实体的存储结构来削减查询中求笛卡尔积的操作以提升查询的效果。(2)基于图的存储方案基于图的存储方案优点是它能够给维护RDF数据的原始表示并强制执行SPARQL的预期语义。例如gStore和chameleon-db系统都遵循这种方案。这种方案的缺点是子图匹配的代价过大,图同态是NP完全的。2.现有属性图存储方案:属性图模型对于结点属性和边属性具备内置的支持。属性图是有向的,带标记的,多属性的图。Neo4j是一个支持事务应用程序和图形分析的原生图数据库,支持事务应用程序。它是目前最流行的属性图数据库。
技术实现思路
针对上述现有技术,本专利技术根据知识图谱的两种数据模型RDF图模型和属性图模型的定义、特点以及关系表的存储理念,设计了知识图谱的统一的存储方案,保留RDF图和属性图的全部语义信息,来解决RDF图和属性图的语义表达能力的差异的问题,并降低了大规模数据的冗余,实现高效的查询。为了解决上述技术问题,本专利技术予以实现的技术方案是:基于关系模型的RDF图和属性图统一存储方法,将RDF图和属性图两种逻辑模型在底层以关系表的物理模型存储,包括RDF图的底层存储和属性图的底层存储。进一步讲,本专利技术基于关系模型的RDF图和属性图统一存储方法,其中,所述RDF图的底层存储,包括对于RDF图中点的转换,对于RDF图中边的转换和对于RDF中的具体化技术的转换;对于RDF图中点的转换,步骤如下:1-1)读入RDF三元组;若为<U1><rdf:type><U2>形式的RDF三元组,执行1-2),若为<U1><U2><L>形式的RDF三元组,且U1为结点类型关系表中的元组,执行1-4);1-2)检查是否已经创建记录结点类型U2的关系表,若已创建结点类型U2的关系表,执行1-3);若未创建,则先创建结点类型U2的关系表,该关系表具有两列属性:id、properties;1-3)为结点U1设置一个id值,将U1作为一个元组插入结点关系表U2中,执行1-1)循环读入RDF三元组;1-4)将{U2:L}添加到U1元组的properties属性中,执行1-1)循环读入RDF三元组;对于RDF图中边的转换,步骤如下:2-1)读入RDF三元组;若为<U1><U2><U3>形式的RDF三元组,执行2-2);若为<U1><U2><L>形式的RDF三元组,且U1为边类型关系表中元组,执行2-4);2-2)检查是否已经创建了记录边类型为U2的关系表;若已创建边结点类型U2的关系表,执行2-3);若未创建,则先创建边类型U2的关系表,该关系表具有四列属性:id、start、end、properties;2-3)为该关系设置一个id值,将结点U1的id赋给start,将结点U3的id赋给end,将该元组插入边类型U2的关系表;执行2-1)循环读入RDF三元组;2-4)将{U2:L}添加到U1元组的properties属性中,执行2-1)循环读入RDF三元组;本专利技术中,所述RDF图的底层存储是,RDF三元组形式<U1><rdf:type><U2>在底层以存储点的关系表U2中一个元组U1形式存储;RDF三元组形式<U1><U2><L>在底层以存储点的关系表中在properties列中具有属性U2其值为L{U2:L}一个元组U1形式存储;RDF三元组形式<U1><U2><U3>在底层以存储边的关系表U2中以具有起始点U1的id值、终结点U3的id值为属性的一个元组形式存储。本专利技术对于RDF中的具体化技术设计了针对其特有的存储形式:即一个三元组中谓语,作为另一个三元组中的主语或者宾语。在对这种RDF图数据进行存储时,将这个谓语分别在存储边的表和存储点的关系表中进行存储,用唯一的点id和边id进行标识,系统中额外维护一张Edge_Vertex表,用于存放该谓语在边和点两张关系表中存储的id值之间的一一对应关系。对于RDF中的具体化技术的转换方式如下:3-1)读入<U1><U2><U3>三元组,U1为边类型关系表中的元组;检查是否已经创建了记录边类型为U2的关系表;若已创建边结点类型U2的关系表,执行3-2);若未创建,则先创建边类型U2的关系表,具有四列属性:id、start、end、properties;2)为边U1设置点id,并将U1的点id和边id插入系统表Edge_Vertex中;3)为该关系设置一个id值,将边U1的点id赋给start,将结点U3的id赋给end,将该元组插入边类型U2的关系表;执行3-1)循环读入RDF三元组。本专利技术基于关系模型的RDF图和属性图统一存储方法,其中,所述属性图的底层存储,包括:对于属性图中具有本文档来自技高网
...

【技术保护点】
1.一种基于关系模型的RDF图和属性图统一存储方法,其特征在于,将RDF图和属性图两种逻辑模型在底层以关系表的物理模型存储,包括RDF图的底层存储和属性图的底层存储。/n

【技术特征摘要】
1.一种基于关系模型的RDF图和属性图统一存储方法,其特征在于,将RDF图和属性图两种逻辑模型在底层以关系表的物理模型存储,包括RDF图的底层存储和属性图的底层存储。


2.根据权利要求1所述基于关系模型的RDF图和属性图统一存储方法,其特征在于,所述RDF图的底层存储,包括对于RDF图中点的转换、对于RDF图中边的转换和对于RDF中的具体化技术的转换;
对于RDF图中点的转换,步骤如下:
1-1)读入RDF三元组;若为<U1><rdf:type><U2>形式的RDF三元组,执行1-2),若为<U1><U2><L>形式的RDF三元组,且U1为结点类型关系表中的元组,执行1-4);
1-2)检查是否已经创建记录结点类型U2的关系表,若已创建结点类型U2的关系表,执行1-3);若未创建,则先创建结点类型U2的关系表,该关系表具有两列属性:id、properties;
1-3)为结点U1设置一个id值,将U1作为一个元组插入结点关系表U2中,执行1-1)循环读入RDF三元组;
1-4)将{U2:L}添加到U1元组的properties属性中,执行1-1)循环读入RDF三元组;
对于RDF图中边的转换,步骤如下:
2-1)读入RDF三元组;若为<U1><U2><U3>形式的RDF三元组,执行2-2);若为<U1><U2><L>形式的RDF三元组,且U1为边类型关系表中元组,执行2-4);
2-2)检查是否已经创建了记录边类型为U2的关系表;若已创建边结点类型U2的关系表,执行2-3);若未创建,则先创建边类型U2的关系表,该关系表具有四列属性:id、start、end、properties;
2-3)为该关系设置一个id值,将结点U1的id赋给start,将结点U3的id赋给end,将该元组插入边类型U2的关系表;执行2-1)循环读入RDF三元组;
2-4)将{U2:L}添加到U1元组的properties属性中,执行2-1)循环读入RDF三元组;
对于RDF中的具体化技术的转换,步骤如下:
3-1)读入<U1><U2><U3>三元组,U1为边类型关系表中的元组;检查是否已经创建了记录边类型为U2的关系表;若已创建边结点类型U2的关系表,直接执行3-2);若...

【专利技术属性】
技术研发人员:王鑫柳鹏凯张然郭谢帆
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1