【技术实现步骤摘要】
一种基于容器的分布式计算方法和装置
本专利技术涉及分布式计算领域,更具体地,特别是指一种基于容器的分布式计算方法和装置。
技术介绍
在目前主流的分布式内存计算框架的Shuffle中,一方面在编写代码时排序、连接、分组等操作会产生大量的Shuffle数据;另一方面,Shuffle阶段的数据默认溢写到Shuffle盘(如HHD、SSD等)中,但HHD的读写性能欠佳、即使是读写性能相对较好的SSD也远不及内存的读写性能,这就使得Shuffle阶段消耗大量的时间,对于Shuffle密集型计算任务十分不友好。持久化内存具有与DRAM接近的读写性能且拥有普通DRAM无法比拟的容量,但容器内与宿主机的持久化内存设备交互存在一定的技术壁垒,容器内无法识别到宿主机上的持久化存储设备。针对现有技术中Shuffle数据量过大、容器内读写缓存速度慢的问题,目前尚无有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种基于容器的分布式计算方法和装置,能够降低Shuffle数据的处理量并提升容器内的Sh ...
【技术保护点】
1.一种基于容器的分布式计算方法,其特征在于,包括在Shuffle阶段执行以下步骤:/n调用底层驱动初始化连接到宿主机的持久化内存,为所述持久化内存确定设备应用模式,并在所述宿主机上创建区域和命名空间;/n基于所述区域和所述命名空间为所述持久化内存创建带文件系统的数据卷,将所述数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统;/n监控Shuffle管理接口并通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据,从容器通过所述容器存储接口访问所述数据卷以向所述文件系统溢写和/或缓存所述Shuffle数据。/n
【技术特征摘要】
1.一种基于容器的分布式计算方法,其特征在于,包括在Shuffle阶段执行以下步骤:
调用底层驱动初始化连接到宿主机的持久化内存,为所述持久化内存确定设备应用模式,并在所述宿主机上创建区域和命名空间;
基于所述区域和所述命名空间为所述持久化内存创建带文件系统的数据卷,将所述数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统;
监控Shuffle管理接口并通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据,从容器通过所述容器存储接口访问所述数据卷以向所述文件系统溢写和/或缓存所述Shuffle数据。
2.根据权利要求1所述的方法,其特征在于,初始化持久化内存包括:使所述持久化内存与所述宿主机相互兼容;
为所述持久化内存确定设备应用模式包括:使所述持久化内存工作在允许分配命名空间的直接模式;
在所述宿主机上创建区域和命名空间包括:在每个所述持久化内存上分别创建一个所述区域,并在每个所述区域中创建至少两个所述命名空间,并且使至少两个所述命名空间的总容量小于所述持久化内存的实际容量。
3.根据权利要求1所述的方法,其特征在于,所述将数据卷挂载到所述宿主机以允许容器通过容器存储接口访问所述文件系统包括:
在所述文件系统内创建分区表、元数据、和存储分区,将所述存储分区绑定到所述持久化内存的所述命名空间,并通过所述命名空间使用所述文件系统兼容的文件存储格式来格式化所述存储分区,使得所述容器存储接口挂载所述存储分区以供容器访问所述文件系统。
4.根据权利要求1所述的方法,其特征在于,通过所述管理接口输出的弹性分布式数据集之间的依赖关系确定Shuffle数据包括:
分别判定通过所述管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖,并将判定为是宽依赖的弹性分布式数据集的依赖关系数据确定为所述Shuffle数据。
5.根据权利要求4所述的方法,其特征在于,分别判定通过所述管理接口输出的各弹性分布式数据集所具有的依赖关系是窄依赖还是宽依赖包括:
获取各弹性分布式数据集的依赖关系;
响应于一个特定弹性分布式数据集仅依赖另一个弹性分布式数据集,而将所述特定弹性分布式数据集的依赖关系判定为窄依赖;
响应于一个特定弹性分布式数据集同时依赖至少两个其它弹性分布式数据集,而将所述特定弹性分布式数据集的依赖关系判定为宽依赖。
6.一种基于容器的分布式计算装置,其特...
【专利技术属性】
技术研发人员:宋奇,秦朝阳,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。