【技术实现步骤摘要】
一种GPU算力管理方法、介质、设备及系统
[0001]本专利技术涉及容器编排领域,更为具体的,涉及一种GPU算力管理方法、介质、设备及系统。
技术介绍
[0002]近年来,人工智能发展迅猛,如何利用最低的算力来使得机器学习、深度学习相关应用以最高的性能运行一直是该领域内的一个重点难题。在各大企业实际运用中,算力最大化利用是企业不断在研究和突破的点。GPU硬件加速器是提供算力的关键,这几年GPU虽取得了长足的发展,但是算力资源还是较为昂贵。在企业环境中,GPU资源更是难以得到充分的利用。在企业实际应用中,通常将GPU资源池化、共享来提高资源利用率。但事实上当GPU资源被共享时,它们的利用率会很低,且很难准确的预估每一个应用需要的算力。现市面上Kubernetes(以下简称K8S)框架和Ray框架,都可以支持GPU资源的某种形式的共享,并支持资源动态扩缩,来提高算力利用。两者的动态扩缩有不同的扩缩规则、扩缩粒度,对其各自的控制都是合理的,但是这两种方式还是不能够很好的满足实际需求。对于一个提供智能服务的中台而言,希望的智能服务都 ...
【技术保护点】
【技术特征摘要】
1.一种GPU算力管理方法,其特征在于,使用K8S框架对纳管的计算节点的GPU、CPU和内存资源池化后,执行如下流程:测量流程:设置测量流程用于测量所需GPU、CPU和内存资源,并将测量结果传递给Ray框架;资源分配和服务调度流程:在巡检任务负载情况和节点资源使用情况后,按照测量流程的测量结果进行资源分配和服务调度,来满足任务执行需要。2.根据权利要求1所述的GPU算力管理方法,其特征在于,所述按照测量结果进行资源分配和服务调度,包括子流程:Ray框架检查需要部署的智能能力模型在所述测量流程中所获取的算力测量值之后,设置弹性扩缩流程用于扩缩微服务。3.根据权利要求1所述的GPU算力管理方法,其特征在于,所述按照测量结果进行资源分配和服务调度,包括子流程:Ray框架检查需要部署的智能能力模型的算力测量值,将智能能力模型的算力测量值与任务代理进程的资源进行比较,如果任务代理进程的资源能够部署该智能能力模型,Ray框架就将该任务分配给有资源的任务代理进程来完成智能服务部署。4.根据权利要求2所述的GPU算力管理方法,其特征在于,所述弹性扩缩流程,包括子步骤:S1,获取集群快照:平台资源管理主服务获取每个集群节点的GPU和CPU资源使用情况、模型信息,并统计各个类型任务的数量;S2,缩服务:销毁空闲节点;S3,扩服务:启动新的模型来执行排队中的任务。5.根据权利要求4所述的GPU算力管理方法,其特征在于,在步骤S2中,包括子步骤:S21,按照上次模型被使用的时间进行排序,对使用的模型进行排序;S22,查看这些模型是否被销毁;S...
【专利技术属性】
技术研发人员:罗宏智,梅亮,许春香,罗天,
申请(专利权)人:成都索贝数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。