一种医学人工智能与高性能计算资源调度系统及调度方法技术方案

技术编号:32683779 阅读:28 留言:0更新日期:2022-03-17 11:42
本发明专利技术公开一种医学人工智能与高性能计算资源调度系统及调度方法,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数据、计算完成的数据和其它数据;所述各子系统通过高速网络通信连接。本发明专利技术可实现人工智能与高性能计算资源的一体化调度,降低建设成本,提升资源利用率。资源利用率。资源利用率。

【技术实现步骤摘要】
一种医学人工智能与高性能计算资源调度系统及调度方法


[0001]本专利技术涉及大数据处理
,具体涉及一种医学人工智能与高性能计算资源调度系统及调度方法。

技术介绍

[0002]医学领域涉及大量人工智能和高性能计算,在高性能计算领域,计算作业以计算密集型为主,通过平台的调度,在计算集群中的一个或多个计算节点上执行。每个作业对计算资源的需求是不同的。计算资源需求最重要的两个指标是CPU核心数和内存大小,其次的指标还包括存储、GPU、带宽等。当每个计算作业分配到需要的资源开始执行后,不能被中断、迁移,如果一旦发生中断需要重新执行。作业调度系统的主要功能是根据作业对计算资源的需求,在计算平台中为作业分配合理的计算资源,并且将作业启动。当计算平台比较繁忙,不能满足计算资源需求时,调度系统会将作业放置到等待队列中,等待计算平台的空闲。
[0003]人工智能应用都运行在GPU上,当模型训练完成,在实际场景进行部署的时候,GPU通常采用静态分配。每个算法都需要固定大小的显存,一个业务场景需要多个算法和检测规则,算法模型在启动实例化的时候也比较的耗时,所以,一般在算法部署的时候,就根据GPU显存大小、算法类型和算法个数提前分配好GPU资源。
[0004]鉴于人工智能一般以物理机进行资源分配,无作业调度机制,有效利用率低,经常出现机器不够用;虽然人工智能已出现少量训练开发平台,但无法进行高性能计算;而人工智能和高性能计算分别建设,建设成本高,管理复杂,资源复用低;集群一般采用共享存储,存储性能要求高,建设成本高。<br/>[0005]因此,有必要研发一种可以实现人工智能与高性能计算资源的一体化调度的资源调度系统。

技术实现思路

[0006]为解决上述现有技术中的不足,本专利技术出于实际业务开展需要,提供一种医学人工智能与高性能计算资源调度系统及方法,实现人工智能与高性能计算资源的一体化调度,降低建设成本,提升资源利用率。
[0007]为实现上述技术目的,本专利技术采用的技术方案为:一种医学人工智能与高性能计算资源调度系统,所述系统包括:用户登录系统:用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统:用于部署数据库、监控等基础管理进程和服务;作业调度系统:通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库:用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统:进行计算的物理资源;并行文件系统:用于存放用户上传的数据、计算完成的数据和其它数据;所述用户登录系统、资源管理系统、作业调度系统、容器镜像库、计算资源系统、并行文件系统通过高速网络通信连接。
[0008]优选的,所述计算资源系统包括CPU、GPU、FPGA等多种不同的配置类型。
[0009]进一步地,所述计算资源系统还配置有SSD硬盘。
[0010]优选的,所述高速网络包括以太网、Infiniband网。
[0011]一种医学人工智能与高性能计算资源调度方法,步骤包括:S1、用户在用户登录系统上传作业,作业数据存放在并行文件系统中;S2、资源管理系统根据用户上传的作业判断类型;S2.1、CPU等类型作业,直接跳转到“S6”;S2.2、GPU/FPGA等类型,进行下一步流程;S3、资源管理系统根据用户上传的作业判断容器镜像库中是否有满足要求的镜像;S3.1、有满足要求的容器镜像,直接跳转到“S6”;S3.2、无满足要求的容器镜像,进行下一步流程;S4、从容器镜像库拉取镜像模版或类似的镜像到用户登录系统;S5、在用户登录系统启动镜像并进入到镜像内部,安装应用软件,配置环境,并将满足使用要求的镜像重新打包并回传到容器镜像库上进行另存;S6、作业调度系统根据任务需求从计算资源系统中分配节点资源给任务;S7、在分配到的节点中,通过SSD创建分布式全闪文件系统,作为计算缓存区;S8、从并行文件系统中拷贝作业数据到计算缓存区;S9、根据作业要求启动计算流程和计算程序;S10、计算完成后,从计算缓存区移动相关数据到并行文件系统;S11、对应节点释放计算资源,流程结束。
[0012]与现有技术相比,本专利技术的有益效果有:1)本专利技术提供的医学人工智能和高性能计算资源调度系统,多种计算资源融合建设、管理、调度,系统架构简单,硬件复用率高,建设和运维成本低;可在同1套平台上同时进行人工智能计算和高性能计算;2)本专利技术提供的医学人工智能和高性能计算资源调度方法进行资源调度分配,提高硬件使用率和有效负荷;本专利技术的计算资源节点上增加SSD,按需配置为分布式全闪文件系统,用户计算过程中数据存放,有效提供计算效率。
附图说明
[0013]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0014]图1是本专利技术的医学人工智能与高性能计算资源调度系统的系统架构示意图;图2是本专利技术的医学人工智能与高性能计算资源调度方法的流程图。
[0015]附图标记:10

用户登陆系统,20

资源管理系统,30

作业调度系统,40

容器镜像库,50

计算资源系统,60

并行文件系统,70

高速网络。
具体实施方式
[0016]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0017]一种医学人工智能与高性能计算资源调度系统,包括用户登录系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统60,所述用户登录系统10、资源管理系统20、作业调度系统30、容器镜像库40、计算资源系统50、并行文件系统60通过高速网络70通信连接,所述高速网络70包括以太网、Infiniband网等多种类型。
[0018]用户登录系统10用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统20用于部署数据库、监控等基础管理进程和服务;作业调度系统30通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库40用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统50是实际进行计算的物理资源,包括CPU、GPU、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学人工智能与高性能计算资源调度系统,其特征在于:所述系统包括:用户登录系统(10):用于客户从办公环境登录到系统,并提供作业提交、数据上传下载等功能;资源管理系统(20):用于部署数据库、监控等基础管理进程和服务;作业调度系统(30):通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理;容器镜像库(40):用于存放容器镜像模版和用户预定义或自定义的镜像;计算资源系统(50):进行计算的物理资源;并行文件系统(60):用于存放用户上传的数据、计算完成的数据和其它数据;所述用户登录系统(10)、资源管理系统(20)、作业调度系统(30)、容器镜像库(40)、计算资源系统(50)、并行文件系统(60)通过高速网络(70)通信连接。2.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)包括CPU、GPU、FPGA等多种不同的配置类型。3.根据权利要求2所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述计算资源系统(50)还配置有SSD硬盘。4.根据权利要求1所述的医学人工智能与高性能计算资源调度系统,其特征在于:所述高速网络(70)包括以太网、Infiniband网。5.一种使用权利要求1

...

【专利技术属性】
技术研发人员:应志野李春漾陈一龙于浩澎龚力匡亚岚
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1