用于图计算的处理方法、装置、系统及计算机可读介质制造方法及图纸

技术编号:34293652 阅读:52 留言:0更新日期:2022-07-27 10:07
本发明专利技术涉及图数据处理技术领域,具体地说,涉及一种用于图计算的处理方法、装置、系统及计算机可读介质。该方法具有:步骤S1、图数据存储;步骤S2、图数据加载;步骤S3、基于共享内存中的图数据进行图计算,图计算包括执行图查询任务和/或图分析任务和/或图学习任务;步骤S4、图数据更新。该装置、系统及计算机可读介质均用于实现上述方法。本发明专利技术能够较为高效支持图查询、图分析和图学习任务及任务之间的高效组合,降低用户的代码开发成本。另外,由于能够将图查询、图分析及图学习三大模块进行一站式的系统融合,故而能够较佳地降低模块之间的系统割裂,提升了图计算的效率。提升了图计算的效率。提升了图计算的效率。

【技术实现步骤摘要】
用于图计算的处理方法、装置、系统及计算机可读介质


[0001]本专利技术涉及图数据处理
,具体地说,涉及一种用于图计算的处理方法、装置、系统及计算机可读介质。

技术介绍

[0002]现实世界中,图数据无处不在,图数据通常用来表达多个数据对象的多个数据类型间的拓扑结构。基于图数据的图计算具有广泛的应用前景:从网络攻击识别、路由优化到关系预测等。在图计算相关的应用领域中,一般包含图查询、图分析及图学习三大核心模块。由于业务场景的复杂性,一般需要将三大核心模块进行有机组合从而解决实际的业务问题。
[0003]图数据大多由节点数据和边数据构成,在一个数据对象的群体中,一个节点数据用于表达某一具体类别的数据,边数据则通常用以表达两个节点数据间的关联。
[0004]以互联网交易数据为例,对于某一个交易群体,用于表达该交易群体的特征类型的数据则可以定义为用户节点数据;用户节点数据的格式可为如下形式:用户1,身高1,体重1;用户2,身高2,体重2;用于表达该交易群体的所购买商品类型的数据则可以定义为商品节点数据,商品节点数据可为如下形式:商品1,销量1,价格1;商品2,销量2,价格2;用于表达用户节点数据与商品节点数据间的关联的边数据则可以表达为如下:用户1
‑‑
商品2;用户2
‑‑
商品2。
[0005]通过如上可以看出,通过图数据的方式,能够较佳地实现对庞大数据的存储。基于图数据的数据存储方式,使得多种基于图数据的庞大数据群体的计算成为了可能,也即图计算。
[0006]图计算能够高效地实现图查询、图分析及图学习的功能,具有广阔的应用前景。在业务应用中,通常需要以探索的方式查询图数据,此时可以借助于图查询的功能进行查询。基于图分析模块,用户可以基于图的方法来分析关系数据,挖掘感兴趣的模式,计算实体/边之间的特定关系。一般的,图的查询关注于局部数据分析,而图分析通常关注整张图的数据和迭代分析计算。基于图学习模块,用户可以挖掘图的深度关系,发现隐藏的信息,对实体/边的行为进行预测。比如通过有监督的算法进行实体/节点的边标签预测,通过无监督的方式进行聚类,通过半监督的方式进行标签传播与扩散。
[0007]目前图计算平台种类繁多,然而受限于各自的商业环境,不同平台的功能侧重点各异。如Neo4J平台则侧重于图查询,GraphX平台则侧重于图分析,Plato和Euler平台则侧重于图学习。
[0008]然而,在实际使用时,为了实现复杂的图计算任务,往往同时需要图查询、图分析及图学习功能,基于现有的图计算平台的功能,用户往往需要同时管理、维护不同的图计算平台,从而完成复杂的图计算任务,导致整体系统维护成本高,代码开发难度大。
[0009]此外,由于不同图计算平台之间内存数据是相互独立的,平台之间的数据需要通过文件系统进行共享,导致系统计算效率低。结合图1,以常用的复杂图计算任务“PIPELINE”为例,其同时涉及图查询、图分析和图学习任务,其需要进行两次的文件读写操作,导致整体系统效率低下。
[0010]总而言之,目前的图计算应用平台存在以下缺点:1、复杂场景图计算效率低:受限于各自的商业场景,不同图计算平台功能侧重点不一样,为了实现复杂的图计算任务,往往需要多个计算平台共同完成任务,由于不同平台之间内存数据无法共享,需要借助于文件系统进行数据的传输,因此导致在复杂图计算场景下计算效率低下;2、开发门槛高:多种图计算平台和复杂的业务场景导致复杂图算法开发难度大。

技术实现思路

[0011]本专利技术提供了一种用于图计算的处理方法,其能够克服现有图平台所存在的因数据不通而导致的图计算效率较为低下的等问题。
[0012]根据本专利技术的用于图计算的处理方法,其包括如下步骤:步骤S1、图数据存储该步骤中,将图数据存储于分布式文件系统中;步骤S2、图数据加载该步骤中,将存储于分布式文件系统的相关存储服务器中的数据片段分别加载至对应存储服务器的内存中,所有存储服务器的内存共同构成共享内存;步骤S3、基于共享内存中的图数据进行图计算,图计算包括执行图查询任务和/或图分析任务和/或图学习任务;步骤S4、图数据更新该步骤中,对共享内存中发生变化的数据更新至分布式文件系统的对应存储服务器处。
[0013]本专利技术中,通过将图数据存储于分布式文件系统中,并通过构建共享内存的方式,使得图查询、图分析及图学习任务的相关数据均能够直接应用加载于对应存储服务器的内存中的数据,故而能够较为高效支持图查询、图分析和图学习任务及任务之间的高效组合,降低用户的代码开发成本。另外,由于能够将图查询、图分析及图学习三大模块进行一站式的系统融合,故而能够较佳地降低模块之间的系统割裂,提升了图计算的效率。
[0014]作为优选,步骤S1具体包括如下步骤,步骤S11、构建图数据,图数据包括多个节点数据和边数据;其中,每个节点数据均具有节点ID、节点类型和节点属性信息;节点ID为节点数据的编号,其依次取值于自然数;节点类型为节点数据所收录的数据类型的编码;节点属性信息用于记载对应数据类型下的数据对象的相关数据;其中,每个边数据均具有边ID,边类型,起始节点ID、指向节点ID、起始节点类型、
指向节点类型和边属性信息;边ID为边数据的编号,其依次取值于自然数;边类型用于记载所对应两个节点数据间的关联方式;起始节点ID和指向节点ID以及起始节点类型和指向节点类型分别为所对应两个节点数据的节点ID以及节点类型;边属性信息用于记载数据对象在所对应两个节点数据中的关联;步骤S12、对节点数据进行存储该步骤中,首先对分布式文件系统中的M个存储服务器以正整数进行依次编号;之后,依据公式,MOD(节点ID) = 节点ID % N + 1,获取每个节点节点数据的存储位置MOD(节点ID);之后相应节点数据存储于对应存储服务器中即可;其中,“%”为取模运算,N为节点数据的总数;步骤S13、对边数据进行存储该步骤中,依据边数据中的起始节点ID和指向节点ID,将相应边数据分别存储于起始节点和指向节点所在的存储服务器中;步骤S14、构建元数据并进行存储其中,元数据用于记载图数据的节点数据的数量、边数据的数量以及节点数据的分配方式;元数据存储于编号为“1”的存储服务器中。
[0015]在步骤S1中,通过对图数据的切片处理(即步骤S12和步骤S13),能够较佳地将数据量较大的图数据进行存储,故而能够较佳地实现数据库的保障。
[0016]作为优选,步骤S2具体包括如下步骤,步骤S21、读取元数据;步骤S22、依据元数据所记载信息将图数据的相关数据片段加载至对应存储服务器的内存中其中,对于节点数据,以字典数据结构对其进行加载;具体地,以节点ID为key值、以节点类型和节点属性信息为value值加载至内存中;其中,对于边数据,将起始节点ID和指向节点ID为当前节点数据的节点ID的两份边数据分别命名为出边集合和入边结合并作为value值加载至内存中。
[0017]基于上述,能够较佳地将分布式文件系统中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于图计算的处理方法,其包括如下步骤:步骤S1、图数据存储该步骤中,将图数据存储于分布式文件系统中;步骤S2、图数据加载该步骤中,将存储于分布式文件系统的相关存储服务器中的数据片段分别加载至对应存储服务器的内存中,所有存储服务器的内存共同构成共享内存;步骤S3、基于共享内存中的图数据进行图计算,图计算包括执行图查询任务和/或图分析任务和/或图学习任务;步骤S4、图数据更新该步骤中,对共享内存中发生变化的数据更新至分布式文件系统的对应存储服务器处。2.根据权利要求1所述的用于图计算的处理方法,其特征在于:步骤S1具体包括如下步骤,步骤S11、构建图数据,图数据包括多个节点数据和边数据;其中,每个节点数据均具有节点ID、节点类型和节点属性信息;节点ID为节点数据的编号,其依次取值于自然数;节点类型为节点数据所收录的数据类型的编码;节点属性信息用于记载对应数据类型下的数据对象的相关数据;其中,每个边数据均具有边ID,边类型,起始节点ID、指向节点ID、起始节点类型、指向节点类型和边属性信息;边ID为边数据的编号,其依次取值于自然数;边类型用于记载所对应两个节点数据间的关联方式;起始节点ID和指向节点ID以及起始节点类型和指向节点类型分别为所对应两个节点数据的节点ID以及节点类型;边属性信息用于记载数据对象在所对应两个节点数据中的关联;步骤S12、对节点数据进行存储该步骤中,首先对分布式文件系统中的M个存储服务器以正整数进行依次编号;之后,依据公式,MOD(节点ID) = 节点ID % N + 1,获取每个节点节点数据的存储位置MOD(节点ID);之后相应节点数据存储于对应存储服务器中即可;其中,“%”为取模运算,N为节点数据的总数;步骤S13、对边数据进行存储该步骤中,依据边数据中的起始节点ID和指向节点ID,将相应边数据分别存储于起始节点和指向节点所在的存储服务器中;步骤S14、构建元数据并进行存储其中,元数据用于记载图数据的节点数据的数量、边数据的数量以及节点数据的分配方式;元数据存储于编号为“1”的存储服务器中。3.根据权利要求2所述的用于图计算的处理方法,其特征在于:步骤S2具体包括如下步骤,步骤S21、读取元数据;步骤S22、依据元数据所记载信息将图数据的相关数据片段加载至对应存储服务器的内存中其中,对于节点数据,以字典数据结构对其进行加载;具体地,以节点ID为key值、以节
点类型和节点属性信息为value值加载至内存中...

【专利技术属性】
技术研发人员:胡思昊
申请(专利权)人:杭州连通图科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1