一种面向知识图谱的图数据表示和映射方法技术

技术编号:24799727 阅读:14 留言:0更新日期:2020-07-07 21:04
本发明专利技术提出了一种面向知识图谱的图数据表示和映射方法,其包括:(10)将大规模图数据结构映射到消息空间,消息空间存储了包含顶点、弧及属性的关键数据结构,包括邻接表和索引表;(20)利用消息空间的全局分布式文件系统特性,持久化存储和全局访问大规模图数据结构;(30)提供全局可访问的索引表结构,用于实现对图数据的并行访问。本发明专利技术所述的图数据结构可用于构建低成本的海量图数据库系统,也可以应用于描述各种图结构的数据。

【技术实现步骤摘要】
一种面向知识图谱的图数据表示和映射方法
本专利技术属于图数据库
,特别涉及一种面向知识图谱的图数据表示和映射方法,能支持具有潜在的大量计算节点的计算机集群上的图数据表示和操作。
技术介绍
图是计算机科学中常用的一类抽象数据结构,图的普适性使得现实世界的实际网络往往能够抽象成图数据模型表示,其在基于计算机数据库的数据处理
具有广泛的应用前景。目前己经被广泛地应用于诸如计算机科学、语言学、逻辑学、物理、化学、电信工程等领域。然而,真实世界中实体规模的扩张,导致对应的图数据规模迅速增长,无论是RDF(ResourceDescriptionFramework)图数据,还是社交网络图的数据,动辄有数十亿个顶点和上万亿条边。本文所指的大规模强调的就是单个图的大规模性,通常包含十亿个顶点。面对这样大规模的图,对海量数据处理技术提出了巨大挑战,以图数据常用的最短路径计算为例,对于按邻接表形式存储的100亿顶点、600亿条边的图,假设每个顶点及出度边的存储空间占100字节,那么整个图的存储空间将超过1TB。如此大规模的图,对其存储、更新、查找等处理的时间开销和空间开销远远超出了传统集中式图数据管理的承受能力。针对大规模图数据的高效管理,如存储、索引、更新、查找等,已经成为急需解决的问题。传统图数据对于数据结构的设计主要由两种方法。一种是在高性能计算机上向上扩展传统图数据结构,同时设计节点间交换信息的通信机制,来支持较大规模的数据,例如Neo4j图数据库系统就是采用这种方法。但当数据集增长到一定规模和节点数时,节点间通信和系统范围的协调机制会遇到困难,这种性能极限使得该方法无法扩展到更大的数据集。另一种方法是在新兴的分布式体系的复杂通信机制上构建新的图数据结构,例如GFS(GoogleFileSystem)上的“MapReduce”模型、HDFS(HadoopDistributedFileSystem)上的“Hadoop”系统模型、RDD(ResilientDistributedDataset)上的“Spark”系统模型等。但这些新兴分布式体系为了提供可扩展性和维护已定义的程序状态,简化了数据模型,但限制了图数据的操作,对于较为复杂的图数据应用,这种数据结构不够灵活。
技术实现思路
为了克服现有技术的不足,本专利技术基于消息空间架构,提供一种面向知识图谱的图数据表示和映射方法,使得图数据结构能扩展到大量计算节点的同时,支持高效的图计算。本专利技术解决上述背景存在的技术问题,采用的技术方案如下:本专利技术提出一种面向知识图谱的图数据表示和映射方法,其包括:(10)将大规模图数据结构映射到消息空间,消息空间存储了包含顶点、弧及属性的关键数据结构,所述大规模图数据结构包括邻接表和索引表;(20)利用消息空间的全局分布式文件系统特性,持久化存储和全局访问大规模图数据结构;(30)提供全局可访问的索引表结构,用于实现对图数据的并行访问。其中,所述步骤(10)包括:所有图数据结构在消息空间中都有固定起始位置作为标识,通过消息的固定起始位置能够随机访问图数据结构;将顶点的固定起始位置汇总记录在索引表中,索引表结构包含多个顶点的索引号和对应的消息空间固定起始位置;使用者通过索引表查找和访问图数据结构。其中,所述步骤(20)包括:数据结构持久化存储后,系统重启后,数据无需重新导入到系统,数据存储是立即持久化的;索引表的存储是持久化的,同时索引表的大小可根据需要进行调整;索引表结构的改变不影响节点、弧和属性的实际数据存储内容。其中,所述步骤(30)包括:大规模图数据结构的多个消息空间可以组成整体消息空间;每个消息空间大小为32GB至2TB,64个消息空间形成最多总容量达128TB的大规模整体消息空间,从而支持超大规模图数据结构;索引表存储在消息空间的共享部分,不同消息空间都可以访问索引表的全部数据,以此达到对图数据并行访问的目的。本专利技术在消息空间上进行表示和映射大规模图数据结构,提供一个可扩展至128TB的大规模消息空间。该消息空间包含传统消息传递的元素,但允许消息存储在一个统一寻址的空间系统。这使得图数据结构能够支持随机访问的超大规模数据。每个消息空间大小为32GB至2TB,多个消息空间可以组成整体消息空间,最多64个消息空间形成总容量可达128TB的大规模整体消息空间,从而支持超大规模图数据结构。在消息空间系统中,创建32GB至2TB的消息空间区域,该区域包含可全局访问和可靠持久化存储两个特性。在该区域中存储邻接表作为核心的图数据结构。所有图数据结构在消息空间中都有固定起始位置作为标识,通过消息的固定起始位置能够随机访问图数据结构。因为所有任务在消息空间内访问消息,扩展性问题和通信复杂性问题能自然地被基于消息空间的设计所解决。通过将消息的语义扩展为持久化数据结构,本专利技术可以消除类似命名管道之类的特定专用应用的限制,用一个通用的系统去指定和访问消息。本专利技术属于图数据库
,能够支持具有潜在大量计算节点的计算机集群上的图数据表示和操作,该方法可以运用于图数据库实现中,以提升图数据库的查询处理性能。该方法将顶点、弧和属性映射到消息空间系统,并使图数据结构适应消息空间语义,以确保系统的三个竞争性的技术要求:可扩展性、低延迟和一致性。该方法能够扩展到数千个计算节点和数百亿个图形元素,并能够支持低延迟查询操作。附图说明图1是图数据结构在消息空间中的表示。图2所示是图数据的逻辑存储格式。图3是图数据的物理存储方式。图4是当前vablist(邻接表)和属性数据存储形式。图5是索引表结构。具体实施方式以下对本专利技术的具体实施方式做出详细说明。本专利技术的一种面向知识图谱的图数据表示和映射方法,其包括如下步骤:(10)将大规模图数据结构映射到消息空间,消息空间存储了包含顶点、弧及属性的关键数据结构,大规模图数据结构包括邻接表和索引表。(20)利用消息空间的全局分布式文件系统特性,持久化存储和全局访问大规模图数据结构。(30)提供全局可访问的索引表结构,用于实现对图数据的并行访问。其中,所述步骤(10)具体为:所有图数据结构在消息空间中都有固定起始位置作为标识,通过消息的固定起始位置能够随机访问图数据结构;将顶点的固定起始位置汇总记录在索引表中,索引表结构包含多个顶点的索引号和对应的消息空间固定起始位置;使用者通过索引表查找和访问图数据结构。所述步骤(20)具体为:数据结构持久化存储后,系统重启后,数据无需重新导入到系统,数据存储是立即持久化的;索引表的存储是持久化的,同时索引表的大小可根据需要进行调整;索引表结构的改变不影响节点、弧和属性的实际数据存储内容。所述步骤(30)具体为:大规模图数据结构的多个消息空间可以组成整体消息空间;每个消息空间大小为32GB至2TB,64个消息空间形成最多总容量达128TB的大规模整体消息空间,从而支持超大规模图数据结构;索引表存储在消息空间的本文档来自技高网
...

【技术保护点】
1.一种面向知识图谱的图数据表示和映射方法,其特征在于,包括如下步骤:/n(10)将大规模图数据结构映射到消息空间,消息空间存储了包含顶点、弧及属性的关键数据结构,所述大规模图数据结构包括邻接表和索引表;/n(20)利用消息空间的全局分布式文件系统特性,持久化存储和全局访问大规模图数据结构;/n(30)提供全局可访问的索引表结构,用于实现对图数据的并行访问。/n

【技术特征摘要】
1.一种面向知识图谱的图数据表示和映射方法,其特征在于,包括如下步骤:
(10)将大规模图数据结构映射到消息空间,消息空间存储了包含顶点、弧及属性的关键数据结构,所述大规模图数据结构包括邻接表和索引表;
(20)利用消息空间的全局分布式文件系统特性,持久化存储和全局访问大规模图数据结构;
(30)提供全局可访问的索引表结构,用于实现对图数据的并行访问。


2.根据权利要求1所述的面向知识图谱的图数据表示和映射方法,其特征在于,所述步骤(10)包括:
所有图数据结构在消息空间中都有固定起始位置作为标识,通过消息的固定起始位置能够随机访问图数据结构;将顶点的固定起始位置汇总记录在索引表中,索引表结构包含多个顶点的索引号和对应的消息空间固定起始位置;使用者通过索引表查找和访问图数据结构...

【专利技术属性】
技术研发人员:刘颖关礼安白新有朱连宏张巍陈剑张洋铭王朝志赵杨华
申请(专利权)人:军事科学院系统工程研究院系统总体研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1