当前位置: 首页 > 专利查询>之江实验室专利>正文

一种计算框架管理系统技术方案

技术编号:39494509 阅读:5 留言:0更新日期:2023-11-24 11:20
本说明书公开了一种计算框架管理系统

【技术实现步骤摘要】
一种计算框架管理系统


[0001]本说明书涉及计算机
,尤其涉及一种计算框架管理系统


技术介绍

[0002]随着人工智能

大数据

大模型等技术的发展和应用,在科研

金融

生命科学

育种

基因

天文等多个领域出现了各种各样的计算任务,这些计算任务中存在部分计算任务具有计算密集

数据密集

资源消耗巨大等特征,因此,针对这部分计算任务,需要使用科学计算集群以及专用的计算框架来执行这部分计算任务

[0003]通常情况下,各种专用的计算框架的安装方式也并不相同,例如:一部分计算框架可以以传统的高性能计算(
High Performance Computing

HPC
)的形式安装在各个科学计算集群中

再例如:一部分计算框架也可以以被打包成容器(如:
Docker
镜像容器)以供科学计算集群调度,从而使得这部分计算框架可以在计算集群中任何机器上运行或者迁移

这其中,以调度
Docker
镜像容器为特征的计算集群和传统的直接将计算框架安装在宿主机操作系统上的
HPC
集群为异构集群

[0004]为了满足各类计算任务的运行并适应不同计算框架的安装形式,通常需要搭建异构集群来负责运行不同计算框架的计算任务,而如何在异构集群上对计算框架进行管理,则是一个亟待解决的问题


技术实现思路

[0005]本说明书提供一种计算框架管理系统,以部分的解决现有技术存在的上述问题

[0006]本说明书采用下述技术方案:本说明书提供了计算框架管理系统,所述计算框架管理系统包括:计算框架安装模块

计算框架管理模块

交互模块

调度模块;所述计算框架安装模块用于接收用户发送的计算框架安装请求,根据所述计算框架安装请求确定用户所需的计算集群的需求信息,并根据所述需求信息从各计算集群中确定出目标计算集群,以及,根据所述计算框架安装请求,确定所述用户进行任务执行所需的初始计算框架,并将所述初始计算框架安装到指定位置;所述计算框架管理模块用于接收所述用户发送的计算框架配置请求,根据所述计算框架配置请求,确定对于所述初始计算框架的配置信息,并根据所述配置信息对所述初始计算框架进行配置,得到目标计算框架,其中配置信息包括所述目标计算框架运行的计算集群资源需求信息和运行参数信息;所述交互模块用于通过所述目标计算框架与所述用户进行交互,并接收所述用户通过所述目标计算框架填写的资源参数和运行参数,并发送任务请求,根据所述任务请求生成计算任务;所述调度模块用于将所述计算任务调度至所述目标计算集群,以通过所述目标计算集群进行任务执行

[0007]可选地,所述计算框架管理系统还包括:计算集群管理模块;所述计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,所述集群信息包括:计算集群中用于管理计算集群的节点的标识信息

计算集群的端口信息

计算集群的管理员账户信息,所述集群状态信息包括:该计算集群当前是否可用的信息

该计算集群中包含计算资源信占用信息

该计算集群中的计算任务的执行信息中的至少一种

[0008]可选地,交互模块用于根据所述计算框架构建请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并根据所述指定交互方式渲染得到所述目标计算框架的用户交互界面,以使所述用户通过所述用户交互界面发送任务请求,所述各交互方式包括:表单交互

接口
API
交互

会话交互中的至少一种

[0009]可选地,所述计算框架安装模块用于根据所述计算框架安装请求,确定所述目标计算框架的类型,并根据所述目标计算框架的类型,确定安装所述初始计算框架的指定位置,将所述初始计算框架安装到指定位置

[0010]可选地,所述目标计算框架的类型包括:镜像类计算框架;所述计算框架安装模块用于根据所述计算框架安装请求,确定基础镜像,将所述初始计算框架安装到所述基础镜像中,得到目标镜像,并将所述目标镜像保存到预设的镜像仓库中

[0011]可选地,所述目标计算框架的类型包括:宿主机类计算框架;所述计算框架安装模块用于根据所述计算框架安装请求,确定目标计算集群,并通过所述目标计算集群将所述初始计算框架安装到挂载在所述目标计算集群上的分布式文件系统中

[0012]可选地,所述计算框架管理系统还包括:存储模块;所述存储模块用于存储各待存储信息,所述各待存储信息包括:所述目标计算框架的结构化信息

所述目标计算集群的集群信息,所述交互模块与所述用户进行交互的交互数据,通过所述目标计算集群进行任务执行的执行结果中的至少一种,所述结构化信息包括:所述目标计算框架的版本号,所述目标计算框架的运行环境,用户提交的计算任务信息,计算集群的信息

[0013]可选地,所述存储模块用于针对每个待存储信息,根据预设的待存储信息的类型和预设的各子存储模块之间的对应关系,从所述各子存储模块,确定用于存储该待存储信息的子存储模块,作为目标子存储模块,并将所述待存储信息存储到所述目标子存储模块中,所述各子存储模块包括:第一子存储模块和
/
或第二子存储模块,所述第一子存储模块包括:数据库,所述第二子存储模块包括:分布式文件系统和
/
或镜像仓库

[0014]可选地,所述调度模块用于监听所述计算任务的执行状态,若确定通过所述目标计算集群执行所述计算任务存在异常,则根据所述异常的类型,从预设的异常处理策略中确定出与所述异常的类型相匹配的异常处理策略,作为目标异常处理策略,并根据所述目标异常处理策略进行异常处理

[0015]可选地,所述调度模块用于根据所述目标计算集群所支持的指定脚本语法,生成所述计算任务对应的启动脚本文件,并将所述启动脚本文件传输至所述目标计算集群,以通过所述计算集群管理模块,从所述目标计算集群中确定启动脚本文件中与所述资源参数
相应的资源并启动计算框架运行所述运行参数相应的计算任务,以进行任务执行

[0016]本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的计算框架管理系统中,计算框架管理系统包括:计算框架安装模块

计算框架管理模块

交互模块

调度模块,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种计算框架管理系统,其特征在于,所述计算框架管理系统包括:计算框架安装模块

计算框架管理模块

交互模块

调度模块;所述计算框架安装模块用于接收用户发送的计算框架安装请求,根据所述计算框架安装请求确定用户所需的计算集群的需求信息,并根据所述需求信息从各计算集群中确定出目标计算集群,以及,根据所述计算框架安装请求,确定所述用户进行任务执行所需的初始计算框架,并将所述初始计算框架安装到指定位置;所述计算框架管理模块用于接收所述用户发送的计算框架配置请求,根据所述计算框架配置请求,确定针对所述初始计算框架的配置信息,并根据所述配置信息对所述初始计算框架进行配置,得到目标计算框架,其中,所述配置信息包括所述目标计算框架运行的计算集群资源需求信息和运行参数信息;所述交互模块用于通过所述目标计算框架与所述用户进行交互,并接收所述用户通过所述目标计算框架填写的资源参数和运行参数,并发送任务请求,根据所述任务请求生成计算任务;所述调度模块用于将所述计算任务调度至所述目标计算集群,以通过所述目标计算集群进行任务执行
。2.
如权利要求1所述的计算框架管理系统,其特征在于,所述计算框架管理系统还包括:计算集群管理模块;所述计算集群管理模块用于获取每个计算集群的集群信息,以及,针对每个计算集群,对该计算集群进行监听,以实时确定每个计算集群的集群状态信息,所述集群信息包括:计算集群中用于管理计算集群的节点的标识信息

计算集群的端口信息

计算集群的管理员账户信息,所述集群状态信息包括:该计算集群当前是否可用的信息

该计算集群中包含计算资源信占用信息

该计算集群中的计算任务的执行信息中的至少一种
。3.
如权利要求1所述的计算框架管理系统,其特征在于,交互模块用于根据所述计算框架构建请求,从预设的各交互方式中确定用户所需的交互方式,作为指定交互方式,并根据所述指定交互方式渲染得到所述目标计算框架的用户交互界面,以使所述用户通过所述用户交互界面发送任务请求,所述各交互方式包括:表单交互

接口
API
交互

会话交互中的至少一种
。4.
如权利要求1所述的计算框架管理系统,其特征在于,所述计算框架安装模块用于根据所述计算框架安装请求,确定所述目标计算框架的类型,并根据所述目标计算框架的类型,确定安装所述初始计算框架的指定位置,将所述初始...

【专利技术属性】
技术研发人员:宋全恒杨非傅科杰
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1