一种面向基于采样的图神经网络训练的数据加载系统技术方案

技术编号:34537135 阅读:66 留言:0更新日期:2022-08-13 21:32
本发明专利技术公开了一种面向基于采样的图神经网络训练的数据加载系统,该数据加载系统包括:邻居节点采样器和数据传输器;邻居节点采样器,以深度学习框架Pytorch的Dataloader的输出为输入,利用采样算子采样邻居节点;数据传输器包含分类器、特征聚合器和数据管理器三部分;分类器对邻居节点采样器输出的节点进行分类,分为共享节点和非共享节点;数据管理器在GPU中维持上一个mini

【技术实现步骤摘要】
一种面向基于采样的图神经网络训练的数据加载系统


[0001]本专利技术属于软件开发
,尤其涉及一种面向基于采样的图神经网络训练的数据加载系统。

技术介绍

[0002]随着数据的不断增长,数据间的关系愈加复杂,图神经网络得到了广泛的关注。不同于传统的擅长处理欧式空间数据的深度神经网络和专门处理图数据的传统图计算,图神经网络专注于处理非欧空间数据,将神经网络中的自动微分和传统图计算中的消息传递机制相结合,在图数据处理上具有较好的效果,并成功的应用在实际生产环境中,例如,社交网络、交通预测、推荐系统等等。
[0003]为了提升图神经网络的学习能力和解决图神经网络在处理大图面临的内存限制问题,基于采样的图神经网络被广泛研究。主流的图采样方式可分为三类:基于节点采样、基于层采样和基于子图采样。然而这些采样方法仅从数学角度考虑,忽略了在系统中的运行效率。另一方面,现有的深度学习框架例如Pytorch、TensorFlow等缺乏高效训练图神经网络的能力,学术界和工业界均不断提出图神经网络框架。目前具有代表性的图神经网络框架:DGL(DeepGr本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向基于采样的图神经网络训练的数据加载系统,其特征在于,包括:邻居节点采样器和数据传输器,其中:所述数据传输器包括分类器、特征聚合器和数据管理器;所述邻居节点采样器与数据传输器中的分类器相连,利用采样算子采样得到当前mini

batch节点,同时采用一种CSR数组存储策略减少采样过程中的数据传输时延;所述数据传输器中的分类器分别与邻居节点采样器和数据管理器相连,将邻居节点采样器采样得到的节点进行分类,分为共享节点和非共享节点;所述数据传输器对不同类节点进行不同的处理:对于共享节点,直接使用GPU中维持的特征数据,对于非共享节点,利用特征聚合器获取其特征数据;所述数据传输器中的数据管理器在GPU中维持一块可变大小的内存空间保存上一个mini

batch的特征数据并在每次训练迭代过程中就地更新该内存空间中的特征数据。2.如权利要求1所述的一种面向基于采样的图神经网络训练的数据加载系统,其特征在于,所述采样算子以每个节点的采样任务为基本单位开展并行采样,输出采样后得到的所有节点,形成一个mini

batch;所述CSR数组存储策略,是根据CSR数组大小将CSR分别存储于share dmemory、global memory和CPU memory中;当CSR数组存放于CPU memory时,邻居节点采样器使用零拷贝进一步减少数据传输时延。3.如权利要求1所述的一种面向基于采样的图神经网络训练的数据加载系统,其特征...

【专利技术属性】
技术研发人员:熊颖彤翁楚良
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1