一种基于单机的大规模图数据处理系统技术方案

技术编号:38716904 阅读:29 留言:0更新日期:2023-09-08 14:59
本申请提供了一种基于单机的大规模图数据处理系统,包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘;数据加载模块用于从磁盘获取状态为活跃的子图,并将子图传输至数据计算模块;数据计算模块用于对子图进行更新,并将更新产生的消息传输至存储管理模块;数据计算模块还用于将子图传输至数据释放模块;数据释放模块用于将子图写入磁盘;当子图被写入磁盘时,存储管理模块用于将子图的状态设置为收敛。通过将基于子图中心的计算模型应用到单机系统,并且建立一套独特的流水线处理架构,该架构能够重叠数据I/O和CPU操作,从而降低传统的顶点中心计算模型的I/O成本同时提高CPU利用率,并促进对磁盘的顺序访问。问。问。

【技术实现步骤摘要】
一种基于单机的大规模图数据处理系统


[0001]本申请涉及数据处理
,特别是一种基于单机的大规模图数据处理系统。

技术介绍

[0002]近年来,由于图数据易于抽象真实世界中的实体与关系,它已经成为数据科学和工程领域备受重视的话题,并被广泛应用于社交网络分析、推荐系统、金融欺诈检测、药物发现等多个领域,同时,图数据具有很高的灵活性,许多原本使用矩阵、关系或其他数据结构进行建模的问题也可以转换为图数据处理,进一步凸显了图数据的重要性。随着社交媒体和移动互联网应用的增强,计算机系统产生或收集的抽象图数据规模正在飞速增长,这种量级上的增长对现代计算机系统的大规模数据存储、分析和挖掘能力提出了极其尖锐的挑战。
[0003]传统的大规模图计算系统使用数据划分的并行化方法,即整合多台计算机资源以完成图计算任务。尽管这些计算系统在大图处理领域扮演着重要角色,但由于高昂的维护和构建成本,只有少数拥有大规模计算机集群的公司能够进行大规模图计算,此外,分布式计算系统通常基于一个假设,即使用更多的计算节点会减少计算时间,但实际上这一假设并不总是成立,增加本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于单机的大规模图数据处理系统,其特征在于,包括数据加载模块、数据计算模块、数据释放模块、存储管理模块和磁盘;所述磁盘存储有由若干子图构成的大规模图数据;所述存储管理模块存储有与每一所述子图对应的状态信息;初始状态下,所述子图的状态为活跃;所述数据加载模块用于从所述磁盘获取状态为活跃的所述子图,并将所述子图传输至所述数据计算模块;所述数据计算模块用于对所述子图进行更新,并将更新产生的消息传输至所述存储管理模块;当更新后的所述子图存在改变时,所述数据计算模块还用于将所述子图传输至所述数据释放模块;当所述子图非当前轮更新中的最后一个时,所述数据释放模块用于将所述子图写入所述磁盘;当所述子图被写入所述磁盘时,所述存储管理模块用于将所述子图的状态设置为收敛。2.根据权利要求1所述的系统,其特征在于,当更新后的所述子图不存在改变时,所述数据计算模块还用于将所述子图写入所述磁盘。3.根据权利要求1所述的系统,其特征在于,当所述子图为当前轮更新中的最后一个时,所述数据释放模块还用于将所述子图传输至所述数据加载模块。4.根据权利要求1所述的系统,其特征在于,当当前轮更新结束时,所述存储管理模块还用于将接收到消息的所述子图的状态设置为活跃。...

【专利技术属性】
技术研发人员:朱筱可刘阳刘书昊樊文飞
申请(专利权)人:深圳计算科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1