【技术实现步骤摘要】
本说明书一个或多个实施例涉及图数据应用,尤其涉及图的分片存储和子图采样的方法及装置。
技术介绍
1、图可以描述真实世界中存在的各种实体或概念及其关系,其可以包含一张巨大的语义网络图,其中的节点表示实体或概念(也可表示为概念、实例对应的实体),边则对应着实体的属性或实体间的关系。图例如可以包括知识图谱、二部图、同构同质图(包含一种节点类型、一种边,比如社交图,交易图等)。
2、在图的实际应用中,图的数据量可能是巨大的,如数十亿、数百亿级别。图数据的一个重要的应用是使用图神经网络(graph neural networks,gnns)对图中节点进行建模,然后用训练好的模型预测节点之间是否存在特定的边。随着图数据的规模持续扩展以及图结构不断复杂化(如异质图、多重图),单台机器已经难以支持十亿甚至百亿级别的图数据。常规的解决方案可以基于分布式图采样系统实现,通过各种采样策略获取小规模的子图作为gnn模型的输入。具体而言,首先对全量图数据执行图切分任务,将图数据切分为多个分片,以保证每一分片的规模都可以加载到单台设备的内存,然后启动分
...【技术保护点】
1.一种图的分片存储方法,由单个分布式设备执行,用于存储所述图在分布式系统中的当前分片,所述方法包括:
2.如权利要求1所述的方法,其中,所述图为有向图,所述连接边包括出边和入边,所述按照所述第一向量中的节点顺序,为各个节点的连接边以行压缩格式进行存储包括:
3.如权利要求2所述的方法,其中,针对各个节点,在连接边的行压缩格式中,针对单个节点按照连接边类型排序。
4.如权利要求1所述的方法,其中,所述方法还包括:
5.一种图的子图采样方法,由所述图所存储的分布式系统中的单个分布式设备执行,用于为与当前节点相关的第一子图在
...【技术特征摘要】
1.一种图的分片存储方法,由单个分布式设备执行,用于存储所述图在分布式系统中的当前分片,所述方法包括:
2.如权利要求1所述的方法,其中,所述图为有向图,所述连接边包括出边和入边,所述按照所述第一向量中的节点顺序,为各个节点的连接边以行压缩格式进行存储包括:
3.如权利要求2所述的方法,其中,针对各个节点,在连接边的行压缩格式中,针对单个节点按照连接边类型排序。
4.如权利要求1所述的方法,其中,所述方法还包括:
5.一种图的子图采样方法,由所述图所存储的分布式系统中的单个分布式设备执行,用于为与当前节点相关的第一子图在本地存储的图分片中采样,所述方法包括:
6.如权利要求5所述的方法,其中,所述第一数量为所述第一行统计向量中第一位置与前一位置的数据差值。
7.如权利要求5所述的方法,其中,所述第一位置通过二分法在所述第一向量中查找当前节点的节点标识确定。
8.如权利要求5所述的方法,其中,所述根据第一列索引向量所指示的节点位置获取第一数量的连接边所连接的节点标识包括:
9.如权利要求5所述的方法,其中,针对单个节点,在连接边的行压缩格式中,针对单个节点按照连接边类型...
【专利技术属性】
技术研发人员:朱仲书,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。