当前位置: 首页 > 专利查询>清华大学专利>正文

一种图数据处理与增量存储方法、装置及计算机设备制造方法及图纸

技术编号:37306719 阅读:26 留言:0更新日期:2023-04-21 22:51
本发明专利技术提供一种图数据处理与增量存储方法、装置及计算机设备,包括:对目标图数据进行预处理;分别计算各节点的哈希值;根据目标图数据中各类节点的数量,确定各类型的节点的前缀空间的数量,以及各前缀空间的前缀值;根据各节点的哈希值以及节点类型,将各节点分配到节点类型对应的前缀空间;根据各节点的哈希值以及所属前缀空间的空间容量,分别计算各节点引用编号的后缀值;分别将各节点所属前缀空间的前缀值与引用编号的后缀值进行串联,得到各节点的引用编号;对各节点按照引用编号进行排序,按照排序结果得到目标图数据的线性存储数据结构;对线性存储数据结构进行增量存储。执行本发明专利技术能准确剔除与已有数据等效的节点,节省存储空间。省存储空间。省存储空间。

【技术实现步骤摘要】
一种图数据处理与增量存储方法、装置及计算机设备


[0001]本专利技术涉及图数据处理领域,具体涉及一种图数据处理与增量存储方法、装置及计算机设备。

技术介绍

[0002]图数据是由节点与边构成的数据,在图数据中,数据节点本身只具有不完整的信息,而更多的信息来自节点与周边节点的引用关系,以及由引用关系构成的路径。节点之间的引用关系是通过引用编号建立的,引用编号是节点具有的一个数值或字符串标记,在图数据中唯一。
[0003]目前,对于图数据的存储,还不能使用版本控制系统等工具进行,常见的计算机存储设备(硬盘、磁带、光盘)都是线性的存储空间,图数据在上述设备中的存储需要转换为线性存储数据结构,通常包括文本文件、二进制文件、数据库等。
[0004]现有的将图数据转化为线性存储数据结构的方法并不能支持增量存储。因为图数据在线性存储数据结构中存在等价变换(如引用变换或写入顺序变换)的干扰,现有的版本控制系统难以正确地识别图数据中的增量,并进行增量存储。
[0005]因此,如何解决将图数据转化为线性存储数据结构并增量存储的问题,成为了本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图数据处理与增量存储方法,其特征在于,包括以下步骤:对目标图数据进行预处理,将无向图与有向有环图转化为有向无环图;分别计算所述目标图数据各节点的哈希值;根据所述目标图数据中各类节点的数量,确定各类型的节点的前缀空间的数量,以及各前缀空间的前缀值;根据各节点的哈希值以及节点类型,将各节点分配到所述节点类型对应的前缀空间;根据各节点的哈希值以及所属前缀空间的空间容量,分别计算各节点引用编号的后缀值;分别将各节点所属前缀空间的前缀值与引用编号的后缀值进行串联,得到各节点的引用编号;对各节点按照所述引用编号进行排序,按照排序结果得到所述目标图数据的线性存储数据结构;对所述线性存储数据结构进行增量存储。2.根据权利要求1所述的图数据处理与增量存储方法,其特征在于,通过如下步骤计算各节点的哈希值:根据所述目标图数据中各节点之间的引用关系,计算各节点的层次,其中,目标图数据中的叶节点组成底层,对于非叶节点,节点的层次值比其引用的所有节点的最大层次值多一;结合各节点所引用的下层节点的哈希值,计算各节点的哈希值,所述哈希值是根据长哈希算法计算得到的。3.根据权利要求2所述的图数据处理与增量存储方法,其特征在于,结合各节点所引用的下层节点的哈希值,计算各节点的哈希值的步骤,包括:将节点类型与节点内容序列化为字符串A;获取节点的各直接引用关系的边类型和目标节点的长哈希,将不同的直接引用关系的所述边类型和目标节点的长哈希进行配对,排序并序列化为字符串B;串联字符串A和字符串B,得到字符串A+B,如果所述字符串A+B的长度小于阈值L,则以A+B作为此节点的长哈希;如果字符串A+B长度大于阈值L,则调用长哈希算法计算A+B的长哈希作为此节点的长哈希。4.根据权利要求2或3所述的图数据处理与增量存储方法,其特征在于,若存在哈希值相同的节点,仅保留其中一个节点。5.根据权利要求1所述的图数据处理与增量存储方法,其特征在于,根据各节点的哈希值以及节点类型,将各节点分配到所述节点类型对应的前缀空间的步骤,包括:计算各节点哈希值的短哈希值;根据短哈希值对各类前缀空间数量的模值、各节点的短哈希值,以及各节点的节点类型,将各节点分配到对应的前缀空间。6.根据权利要求1...

【专利技术属性】
技术研发人员:刘寒高歌顾明
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1