一种图数据的分布式缓存方法及装置制造方法及图纸

技术编号：40417109 阅读：24 留言：0更新日期：2024-02-20 22:34

本说明书实施例涉及一种图数据的分布式缓存方法及装置，所述方法应用于分布式系统的多台工作设备中的任意一台工作设备，包括：获取全图数据的第一子图的图结构数据，然后根据所述图结构数据，从分布式文件系统中读取所述第一子图中全部节点的特征数据，并存入第一缓存空间中，然后根据目标图计算任务，对所述第一子图执行图重排算法，使得重排后相邻的节点拥有相近的节点编号，执行所述目标图计算任务，其中包括，按照节点编号的顺序，依次使得各个节点及其邻居节点的特征数据存储在第二缓存空间中，所述第二缓存空间相较于所述第一缓存空间，具有更小的容量以及更快的读写速度。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及图数据处理领域，尤其涉及一种图数据的分布式缓存方法及装置。

技术介绍

1、近年来，作为表达现实世界中数据间复杂关系的工具，图数据受到了越来越广泛的关注，其中一个重要的应用是使用图神经网络模型(graph neural networks,gnns)对图中节点进行建模，得到节点的向量表示，然后利用节点的向量表示进行后续的推理任务。图数据具体可以是各种业务平台可能用到的关系图，例如，用户社交关系图，交易关系图，用户-物品互动关系图，等等。图中的节点可以表征对应的实体，例如用户，物品等。图数据可以包括业务平台的隐私数据，是业务平台重要的数据资产。

2、随着图数据规模的持续扩展以及图模型的不断复杂化，对十亿甚至百亿级别的图数据执行节点分类或链接预测等推理任务需要非常多的资源。相比图结构，图节点向量特征的数据量级通常更大，每个节点通常包含数百维的向量特征。因此，逐渐开始采用分布式系统来存储图数据，并执行基于图数据的推理任务。典型的gnn模型推理任务首先会根据种子节点执行n跳邻居采样，然后将采样得到的邻居的向量...

【技术保护点】

1.一种图数据的分布式缓存方法，应用于分布式系统的多台工作设备中的任意一台工作设备，包括：

2.根据权利要求1所述的方法，其中，所述第一缓存空间为所述工作设备的本地磁盘，所述第二缓存空间为所述工作设备的本地内存。

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述缓存淘汰算法包括：先进先出算法FIFO、最近最少使用算法LRU、最近最不常用算法LFU。

5.根据权利要求1所述的方法，其中，所述第一子图由全图数据经过图切分算法分割得到。

6.根据权利要求5所述的方法，其中，所述图切分算法包括：METIS...

【技术特征摘要】

1.一种图数据的分布式缓存方法，应用于分布式系统的多台工作设备中的任意一台工作设备，包括：

2.根据权利要求1所述的方法，其中，所述第一缓存空间为所述工作设备的本地磁盘，所述第二缓存空间为所述工作设备的本地内存。

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述缓存淘汰算法包括：先进先出算法fifo、最近最少使用算法lru、最近最不常用算法lfu。

5.根据权利要求1所述的方法，其中，所述第一子图由全图数据经过图切分算法分割得到。

6.根据权利要求5所述的方法，其中，所述图切分算法包括：metis算法、distributedne算法。

7.根据权利要求1所述的方法，其中，所述图重排算法包括：rcm算法、rgb算法、d...

【专利技术属性】
技术研发人员：朱仲书，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人