一种基于混合内存的自适应图计算更新方法及系统技术方案

技术编号：39659339 阅读：10 留言：0更新日期：2023-12-09 11:28

本发明专利技术公开了一种基于混合内存的自适应图计算更新方法及系统

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合内存的自适应图计算更新方法及系统

[0001]本专利技术属于人工智能
‑
大数据
‑
图计算
，涉及一种基于混合内存的自适应图计算更新方法及系统
。

技术介绍

[0002]在计算机科学领域中，图
(Graph)
是最复杂且应用最广泛的数据结构之一
。
它使用顶点
V
和边
E
表示对象之间关系，是对事物之间关系的一种原生表达方式
。
一般地，将图记为：
G
＝
(V,E)。
其中，顶点集
V
是有穷非空集合，可用来表示各种对象，其中可以包含顶点的
ID
编号
、
值信息以及用户定义的其他属性；边集
E
是有穷可空集合，可表示对象之间的各种关联关系
。
许多现实世界中的数据，都可以自然地表示为图数据
。
例如，
Web
网络中的网页可作为顶点数据，网页中超链接可作为边；交通网络中的站点可看作顶点，站点之间的路线可看作边；社交领域中的用户数据可视为顶点，用户之间的好友
、
关注关系可视为边
。
在图论的支撑下，借助于各类图算法，许多实际的问题都可以得到有效解决
。
例如，网页价值评估可以用中心性系列算法实现；路线规划可以借助路径搜索系列算法实现；社交群体发现可以采用社群发现算法实现
。r/>然而，随着互联网和数字化技术的飞速发展，图数据的规模呈指数级不断增长且往往伴随幂律性分布
。
传统的图算法难以解决负载不均衡
、
频繁数据交换
、
缓存机制低效等诸多问题，这就直接导致了传统的图算法难以满足日益增长的性能和功能需求
。
近年来，随着人工智能等数字化技术的快速发展，高性能图计算技术得到国内外工业界和学术界研发人员的广泛关注
。
[0003]图计算是在给定硬件环境基础上，利用多种迭代范式和优化技术，对经典图算法的抽象计算过程，以满足大规模图数据高效处理的要求
。
从关系分析
、
产品推荐到欺诈检测，图计算在各个领域都发挥着极其重要的作用
。
近年来，随着人工智能技术的快速发展，图数据的规模呈指数级增长，导致存储
、
处理这些大规模图数据时，出现巨大的内存占用问题
。
除了庞大的数据规模，图数据往往呈现幂律分布
。Kumar P
等指出这种固有的不平衡特性会导致图计算的高访存
‑
计算比问题
、
负载不平衡问题和并行效率低下问题等
。
为了应对以上问题，集中于提升图计算模型效率的研究开始大量出现
。Y.Zhang
等利用大容量内存构建单机内存图计算模型，以避免高昂的磁盘
I/O
开销；利用图划分技术在分布式集群中构建分布式内存图计算模型，并行处理多个子图，以提高单机图计算系统的可扩展性
。
随着持久内存
(Persistent Memory,PMEM)
的研究取得重大进展，这种新型内存设备与传统的内存
(DRAM)
组成了混合内存系统
(Hybrid Memory System,HMS)。HMS
成为一种以数据为中心的高效图计算的可行性解决方案
。
综上所述，目前基于内存的图计算模型可分为：基于传统内存的单机图计算模型
、
基于分布式共享内存的图计算模型和基于混合内存的图计算模型
。
[0004](
一
)
基于传统内存的单机图计算模型
[0005]基于传统内存的单机图计算模型利用大容量的内存，搭建轻量级图计算模型
。
该类模型的内存容量可容纳整个图数据，便于高效编程；同时又便于提升图算法的并行执行效率
。J.Shun
等提出的
Ligra
模型提供两个典型的编程接口，分别用于边映射和顶点映射
。
这使得该模型非常有利于顶点集上的图遍历算法的实现
。
另外，基于广度优先搜索
(BFS)
算法中使用并行遍历思想，其中编程接口也能根据图数据稠密程度自适应切换推拉
(Push
‑
Pull)
计算模式
。
将
vertex
‑
program
为中心的程序映射成了高效可扩展的稀疏矩阵操作的
GraphMat。
在多核多线程并行条件下，它可进一步提升图计算模型的效率
。Y.Zhang
等提出的图计算模型
GraphIt
将图计算和图调度分离，并可处理不同结构
、
不同大小的图数据
。
由于其
DRAM
足够大，这些系统可避免高昂的磁盘
I/O
开销
。
[0006](
二
)
基于分布式共享内存的图计算模型
[0007]该类模型的设计目标是像
MapReduce
一样高度抽象，可高效执行具有稀疏的计算依赖特性的迭代性图算法，并且保证计算过程中图数据的高度一致性和高效的并行计算性
。
由
CMU(
卡内基梅隆大学
)
的
Select
实验室提出的开源图计算框架，该框架使用
C++
语言开发实现，是一种面向大规模流式图数据并行计算框架，可在多处理机的集群环境中高效运行
。Rong Chen
等分析了图数据的幂律性
(Power
‑
law)
并采用
Hybrid
划分策略
。
对高度顶点采用
vertex
‑
cut
的策略减少产生
Mirror
顶点从而减少了高度顶点计算任务繁重的问题；对低度顶点采用
edge
‑
cut
的切分方式保证低度顶点计算尽量在本地执行
。Tim
等提出图计算模型
Grade
，它利用资源归属方法，通过监控日志和应用程序，构建细粒度
、
统一的工作负载级和系统级的性能视图，并可以自动识别资源瓶颈和常见的性能问题
。
以上模型均可并行处理多个子图，提升单机图计算系统的并行计算能力
。
[0008](
三
)
基于混合内存的图计算模型
[0009]该类模型旨在新兴混合内存系统中构建高效的单机内存图计算模型，并降低对传统...

【技术保护点】

【技术特征摘要】
1.
一种基于混合内存的自适应图计算更新方法，其步骤包括：
1)
设置两个
NUMA
节点，记为
Node0、Node1
，每一所述
NUMA
节点均采用混合内存系统
HMS
，所述混合内存系统
HMS
包括持久内存
PMEM
和内存
DRAM
；所述节点
Node0
中设有预处理模块
、
子图构建模块
、
子图更新模块；
2)
预处理模块将图数据
G
＝
(V,E)
的顶点集
V、
边集
E
分割成
P
个不相交的顶点区间
V1～
V
p
和边块
E1～
E
p
，用于生成
P
个子图
G1～
G
P
；其中，
i
＝1～
P
，第
i
个顶点区间
V
i
包括的顶点子集为待生成子图
G
i
的顶点集，边块
E
i
包括待生成子图
G
i
的以顶点区间
V
i
为源顶点的出边数据块
OutBlock[i]
和以顶点区间
V
i
为目的顶点入边数据块
InBlock[i]
；然后将出边模式的子图数据加载到节点
Node0
中，将入边模式的子图数据加载到节点
Node1
中；
3)
子图构建模块根据从节点
Node0
读取每一个子图的出边数据计算各待生成子图的稠密程度，并根据对图数据
G
的顶点度信息的统计分析设定一比例参数
δ
，将节点
Node0
的混合内存系统
HMS
的持久内存
PMEM
中最稠密的
δ
*P
个待生成子图数据迁移到节点
Node0
的混合内存系统
HMS
的内存
DRAM
中；以及从节点
Node1
读取对应子图的入边数据计算各待生成子图的稠密程度，并根据该比例参数
δ
，将节点
Node1
的混合内存系统
HMS
的持久内存
PMEM
中最稠密的
δ
*P
个待生成子图数据迁移到节点
Node1
的混合内存系统
HMS
的内存
DRAM
中；然后子图构建模块根据节点
Node0
的本地内存
DRAM
中第
i
个子图数据和远程访问
Node1
的内存
DRAM
中第
i
个子图数据生成第
i
个子图
G
i
＝
(V
i
,E
i
)
；
4)
子图更新模块对每一子图
G
i
进行迭代更新，其方法为：计算当前迭代时子图
G
i
的活跃度
ε
[i]
确定对子图
G
i
所采用的更新模式；其中设置一个基于
ε
[i]
和
θ
的阈值函数
selectModel()
，当子图
G
i
的活跃度
ε
[i]
小于设定阈值
θ
时，阈值函数
selectModel()
会返回
Push
模式，否则返回
Pull
模式；在
Push
模式中为子图
G
i
中的顶点
v
保留目标顶点集
D
v
；在
Pull
模式中为子图
G
i
中的顶点
v
保留源顶点集
S
v
；
Push
模式的图算法将顶点
v
的更新值推送至
D
v
，
Pull
模式的图算法从
S
v
中拉取源顶点值以更新顶点
v
的值
。2.
根据权利要求1所述的方法，其特征在于，步骤
1)
的具体实现方法为：首先将图数据
G
的出边模式数据存储在第一存储单元并按顶点区间进行子图划分，得到每一顶点区间及其对应的出边数据块，其中第
i
个顶点区间
interval[i]
对应的出边数据块为
OutBlock[i]
；将图数据
G
的入边模式数据存储在第二存储单元并按顶点区间进行子图划分，得到每一顶点区间及其对应的入边数据块，其中第
i
个顶点区间
interval[i]
对应的入边数据块为
InBlock[i]。3.
根据权利要求2所述的方法，其特征在于，所述第一存储单元
、
第二存储单元为固态硬盘或机械硬盘
。4.
根据权利要求1或2或3所述的方法，其特征在于，步骤
2)
中，构建子图的方法为：
1)
节点
Node0
和节点
Node1
在
DRAM
中同时创建所有子图数据顶点的状态数据和属性数据；
2)
从节点
Node0
读取全部待生成子图的出边数据块
OutBlock
进入本地
PMEM
中；从节点
Node1
读取全部待生成子图的入边数据块
InBlock
进入本地
PMEM
中；
3)
节点
Node0
和节点
Node1
分别计算各待生成子图的稠密程度
R
i
；
4)
节点
Node0
和节点
Node1
分别根据对图数据
G
的顶点度信息的统计分析设定一比例参数
δ
，将混合内存系统
HMS
的持久内存
PMEM
中最稠密的
δ
*P
个待生成子图数据迁移到混合内存系统<...

【专利技术属性】
技术研发人员：刘燕兵，李保珂，曹聪，袁方方，王大魁，张啸梁，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人