System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种机架级的基于RDMA的多机全局内存组织访问系统技术方案_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

一种机架级的基于RDMA的多机全局内存组织访问系统技术方案

技术编号:41288642 阅读:8 留言:0更新日期:2024-05-11 09:37
本发明专利技术属于大规模数据处理技术领域,具体为一种机架级的基于RDMA的多机全局内存组织访问系统。本发明专利技术访问系统包括服务器的内存管理模块、全局内存的组织模块和基于RDMA的内存访问模块;每个服务器的内存管理模块负责整体资源(全局信息记录表、内存块和锁等)的管理,有独立的ID;全局内存的组织模块用于将各个服务器的内存管理模块中的内存组织成全局内存抽象,且通过全局内存地址可以定位到实际的服务器及存储地址;基于RDMA的内存访问模块提供全局内存的数据读写功能和并发访问时的数据一致性保证,并通过RDMA技术来加速远端内存的访问速度。本发明专利技术便于各个服务器之间内存统一管理和访问,提升跨服务器内存访问性能。

【技术实现步骤摘要】

本专利技术属于大规模数据处理,具体涉及多机全局内存组织访问系统。


技术介绍

1、当前数据中心的热门应用,如大模型训练、图计算、大数据分析和深度学习等,对大规模内存访问的需求正呈现迅猛增长的趋势。内存的容量决定了数据中心一批量可以处理的数据规模,只有拥有足够的内存容量,数据中心才能够同时加载和处理大规模数据,为各种应用提供准确、全面的数据分析和计算能力,内存与数据中心应用的处理效率息息相关。

2、但是内存资源因为种种限制在数据中心中的利用率一直不高,例如,google和alibaba的数据中心服务器上的平均内存利用率为仅为60%,且不同服务器之间的差异很大。一旦服务器耗尽可用内存,一些正在运行的应用程序就可能终止,如在一个月内,谷歌79万个数据中心工作任务中至少有1个任务实例会被终止,而这些任务实例的出错往往是内存不足导致的。

3、另外,随着摩尔定律的终结,内存工艺受到引脚、空间和功率限制,使得服务器面临内存容量墙的挑战。传统的内存技术在容量上遇到了瓶颈,难以满足数据中心对大容量内存的需求。值得庆幸的是,诸如rdma之类的细粒度的微秒级延迟网络技术的出现,缩小了网络传输与本地内存直接访问速率之间的差距,进一步给分布式内存访问的发展创造了机遇。但是如何使用rdma技术更好的管理访问各个服务器之间的内存仍然有不少的挑战。


技术实现思路

1、针对上述相关问题和挑战,本专利技术提供一种机架级的基于rdma的多机全局内存组织访问系统,旨在便于各个服务器之间内存的统一管理和访问,并充分发挥rdma技术的优势,提升跨服务器内存访问性能。

2、本专利技术提供的机架级的基于rdma的多机全局内存组织访问系统,参见图1所示,包括:服务器的内存管理模块、全局内存的组织模块和基于rdma的内存访问模块;其中:

3、所述服务器的内存管理模块,其整体组织形式为,每个服务器的内存管理模块都有一个全局单一独立的id,即各个服务器的内存管理模块的id不重复。各个服务器的内存管理模块之间通过rdma进行全连接。因为本专利技术旨在机架级的内存访问设计,所以每个服务器的内存管理模块与其它服务器的内存管理模块之间的连接数量最多只在几十的数量级,全连接不会导致rdma(网卡缓存不足引起的)性能下降。每个服务器的内存管理模块内主要包含全局信息记录表,内存块和锁;其中:

4、所述内存块,为一块连续的物理内存块,并被进一步划分为大小统一的小内存块(block)。该内存块被一次性分配并进行rdma内存注册,以减少后续操作的开销。后续的操作以block的粒度对内存进行管理和访问。

5、所述锁,用于保障内存块中数据读写的一致性,位于一片连续且单独的内存区域,包含与内存块中block相同个数的lock。内存块中的每一个block都对应一个锁中的一个lock。为了方便后续rdma的原子cas操作(基于rdma的内存访问模块会使用,rdma原子cas操作的内存大小为64b),一个lock的大小为64b,所以如果内存块被划分为n个block,则锁占用的内存大小为64*n b。锁被一次性分配并进行rdma内存注册,以减少后续操作的开销。

6、所述全局信息记录表,记录了与其他服务器的内存管理模块进行交互所需要的所有信息。该表中的表项存储的信息如图2所示,包括id、内存块起始地址、锁起始地址和rdmaqp指针。id为服务器的内存管理模块的id,为了对齐内存,大小为64b。内存块起始地址(mem_addr)为该id对应的服务器的内存管理模块中内存块的起始地址,大小为64b。锁起始地址(lock_addr)为该id对应的服务器的内存管理模块中锁的起始地址,大小为64b。rdmaqp指针指向该服务器的内存管理模块与id对应的服务器的内存管理模块之间的rdma qp(即rdma连接),大小为64b。

7、所述全局内存的组织模块,用于将各个服务器的内存管理模块中的内存组织成全局内存抽象,且通过全局内存地址可以定位到实际的服务器及存储地址。

8、所述基于rdma的内存访问模块,用于对block粒度的内存进行访问,提供全局内存的数据读写功能和并发访问时的数据一致性保证,并通过rdma技术来加速远端内存的访问速度。

9、本专利技术提供的机架级的基于rdma的多机全局内存组织访问系统,旨在为机架级的多个服务器中的内存提供统一的全局内存抽象,并紧密结合rdma技术来加速远端内存的访问。本专利技术简化分布式内存抽象,便于分布式内存组织管理,并提供具有一致性保障的全局内存访问,且能提升分布式内存访问性能,对诸如图计算、大数据分析和深度学习等的分布式内存需求大的应用的性能提升具有重大意义。

本文档来自技高网...

【技术保护点】

1.一种机架级的基于RDMA的多机全局内存组织访问系统,其特征在于,包括服务器的内存管理模块、全局内存的组织模块和基于RDMA的内存访问模块;其中:

2.根据权利要求1所述的机架级的基于RDMA的多机全局内存组织访问系统,其特征在于,所述全局内存的组织模块中:

3.根据权利要求2所述的机架级的基于RDMA的多机全局内存组织访问系统,其特征在于,所述基于RDMA的内存访问模块,以block的粒度对内存进行访问,其中,访问的流程如下:

【技术特征摘要】

1.一种机架级的基于rdma的多机全局内存组织访问系统,其特征在于,包括服务器的内存管理模块、全局内存的组织模块和基于rdma的内存访问模块;其中:

2.根据权利要求1所述的机架级的基于rdma的多机全局内存组织访问系...

【专利技术属性】
技术研发人员:严明吴杰刘睿民黄雨凯
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1