基于OptaneDIMM的大规模图嵌入训练方法及系统技术方案

技术编号：32477279 阅读：18 留言：0更新日期：2022-03-02 09:40

本发明专利技术提供了一种基于Optane DIMM的大规模图嵌入训练方法及系统，包括：原始图处理步骤：对原始图进行处理，生成DRAM能够加载的图数据；数据预处理步骤：将图数据根据特征进行两层图分割，将完整图拆分成子图，并存储在磁盘中，使得子图能够加载入GPU进行分区训练；图训练步骤：根据不同介质的访存特性，将训练所用的图数据存储在不同的物理介质中，根据训练过程中所依赖数据的不同特性来切割算法，采用CPU和GPU分工训练，平衡CPU计算、GPU计算以及CPU

全部详细技术资料下载

【技术实现步骤摘要】
基于Optane DIMM的大规模图嵌入训练方法及系统

[0001]本专利技术涉及计算机存储、计算机计算和深度学习
，具体地，涉及一种基于Optane DIMM的大规模图嵌入训练方法及系统。

技术介绍

[0002]图，如社交网络、单词共存网络和通信网络，广泛地存在于各种现实应用中。通过对它们的分析，我们可以深入了解社会结构、语言和不同的交流模式，因此图一直是学界研究的热点。
[0003]使用邻接矩阵的网络表示存在计算效率的问题，邻接矩阵A使用|V|
×
|V|的存储空间表示一个图，随着节点个数的增长，这种表示所需的空间成指数增长。同时，在邻接矩阵中绝大多数是0，数据的稀疏性使得快速有效的学习方式很难被应用。图嵌入学习是指学习得到网络中节点的低维向量表示，形式化地，图嵌入学习的目标是对每个节点v∈V学习一个实值向量其中κ＜＜|V|表示向量的维度。图和图嵌入数学定义如下：
[0004]图：图G(V，E)是顶点集V＝{v1，
…
，v
n
}和边集E的集合。e
ij
∈E包含一个源顶点v
i
和一个目标顶点v
j
。对于加权图G，邻接矩阵W包含与每条边相关的非负权重W
ij
≥0。如果v
i
和v
j
没有连接，则W
ij
设置为0。对于无向加权图，总是有设置为0。对于无向加权图，总是有
[0005]图嵌入：给定一个图G(V，E)和预先...

【技术保护点】

【技术特征摘要】
1.一种基于Optane DIMM的大规模图嵌入训练方法，其特征在于，包括：原始图处理步骤：对原始图进行处理，生成DRAM能够加载的图数据；数据预处理步骤：将图数据根据特征进行两层图分割，将完整图拆分成子图，并存储在磁盘中，使得子图能够加载入GPU进行分区训练；图训练步骤：根据不同介质的访存特性，将训练所用的图数据存储在不同的物理介质中，根据训练过程中所依赖数据的不同特性来切割算法，采用CPU和GPU分工训练，平衡CPU计算、GPU计算以及CPU
‑
GPU通信三者的开销。2.根据权利要求1所述的基于Optane DIMM的大规模图嵌入训练方法，其特征在于：所述原始图处理步骤包括以下子步骤：S1：初始化大小为hash_table_size的哈希表，用于存储顶点名字到顶点ID的映射；S2：进入循环，循环次数为原始图列表的大小；S3：每次循环从原始图中读入一条边，由顶点v_name,目标顶点u_name组成；S4：从哈希表中查找v_name是否已经出现过，若是，则返回映射后的v_id，若否，则调用hash_table.AddVertex(name_v,count_num_vertices)方法，插入新的顶点；S5：若调用hash_table.AddVertex(name_v,count_num_vertices)，首先创建新的顶点，并加入顶点集合vertices,然后计数器count_num_vertices自增一；如果count_num_vertices超过了现有vertices的最大容量，vertices将会自动扩容；S6：循环直到找到哈希表的空位，在哈希表中插入顶点名字到ID的映射关系；S7：根据S4
‑
S6中的步骤处理u_name；S8：将映射后的边写入输出文件。3.根据权利要求1所述的基于Optane DIMM的大规模图嵌入训练方法，其特征在于：所述图数据是以文件的形式存储在磁盘上，数据格式为source_vertex_id,destination_vertex_id；对于无向图，同时存储source_vertex_id,destination_vertex_id；destination_vertex_id,source_vertex_id两条边来表示。4.根据权利要求1所述的基于Optane DIMM的大规模图嵌入训练方法，其特征在于：所述图数据的拆分包括：
‑
采用边分割策略：将图数据按照点划分，将边隔开，划分子图数据为GPU数量，对于单个GPU的设备，则不进行边分割；
‑
采用点分割策略：将图数据按照边划分，划分子图数量根据GPU内存大小决定，当子图能够完整载入GPU时，则不进行点分割策略。5.根据权利要求1所述的基于Optane DIMM的大规模图嵌入训练方法，其特征在于：所述CPU执行负采样和割边训练操作，所述GPU执行正采样、正样本训练和负样本训练操作，所述CPU
‑
GPU通信采用PCI负载执行。6.根据...

【专利技术属性】
技术研发人员：姚建国，陈悦，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人