一种医学人工智能与高性能计算资源调度系统及调度方法技术方案

技术编号：32683779 阅读：28 留言：0更新日期：2022-03-17 11:42

本发明专利技术公开一种医学人工智能与高性能计算资源调度系统及调度方法，所述系统包括：用户登录系统：用于客户从办公环境登录到系统，并提供作业提交、数据上传下载等功能；资源管理系统：用于部署数据库、监控等基础管理进程和服务；作业调度系统：通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理；容器镜像库：用于存放容器镜像模版和用户预定义或自定义的镜像；计算资源系统：进行计算的物理资源；并行文件系统：用于存放用户上传的数据、计算完成的数据和其它数据；所述各子系统通过高速网络通信连接。本发明专利技术可实现人工智能与高性能计算资源的一体化调度，降低建设成本，提升资源利用率。资源利用率。资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】
一种医学人工智能与高性能计算资源调度系统及调度方法

[0001]本专利技术涉及大数据处理
，具体涉及一种医学人工智能与高性能计算资源调度系统及调度方法。

技术介绍

[0002]医学领域涉及大量人工智能和高性能计算，在高性能计算领域，计算作业以计算密集型为主，通过平台的调度，在计算集群中的一个或多个计算节点上执行。每个作业对计算资源的需求是不同的。计算资源需求最重要的两个指标是CPU核心数和内存大小，其次的指标还包括存储、GPU、带宽等。当每个计算作业分配到需要的资源开始执行后，不能被中断、迁移，如果一旦发生中断需要重新执行。作业调度系统的主要功能是根据作业对计算资源的需求，在计算平台中为作业分配合理的计算资源，并且将作业启动。当计算平台比较繁忙，不能满足计算资源需求时，调度系统会将作业放置到等待队列中，等待计算平台的空闲。
[0003]人工智能应用都运行在GPU上，当模型训练完成，在实际场景进行部署的时候，GPU通常采用静态分配。每个算法都需要固定大小的显存，一个业务场景需要多个算法和检测规则，算法模型在启动实例化的时候也比较的耗时，所以，一般在算法部署的时候，就根据GPU显存大小、算法类型和算法个数提前分配好GPU资源。
[0004]鉴于人工智能一般以物理机进行资源分配，无作业调度机制，有效利用率低，经常出现机器不够用；虽然人工智能已出现少量训练开发平台，但无法进行高性能计算；而人工智能和高性能计算分别建设，建设成本高，管理复杂，资源复用低；集群一般采用共享存储，存储性能要求高，建设成本高。<...

【技术保护点】

【技术特征摘要】
1.一种医学人工智能与高性能计算资源调度系统，其特征在于：所述系统包括：用户登录系统(10)：用于客户从办公环境登录到系统，并提供作业提交、数据上传下载等功能；资源管理系统(20)：用于部署数据库、监控等基础管理进程和服务；作业调度系统(30)：通过对计算资源的CPU、GPU、FPGA、内存等进行统一调度和管理；容器镜像库(40)：用于存放容器镜像模版和用户预定义或自定义的镜像；计算资源系统(50)：进行计算的物理资源；并行文件系统(60)：用于存放用户上传的数据、计算完成的数据和其它数据；所述用户登录系统(10)、资源管理系统(20)、作业调度系统(30)、容器镜像库(40)、计算资源系统(50)、并行文件系统(60)通过高速网络(70)通信连接。2.根据权利要求1所述的医学人工智能与高性能计算资源调度系统，其特征在于：所述计算资源系统(50)包括CPU、GPU、FPGA等多种不同的配置类型。3.根据权利要求2所述的医学人工智能与高性能计算资源调度系统，其特征在于：所述计算资源系统(50)还配置有SSD硬盘。4.根据权利要求1所述的医学人工智能与高性能计算资源调度系统，其特征在于：所述高速网络(70)包括以太网、Infiniband网。5.一种使用权利要求1
‑
...

【专利技术属性】
技术研发人员：应志野，李春漾，陈一龙，于浩澎，龚力，匡亚岚，
申请(专利权)人：四川大学华西医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人