【技术实现步骤摘要】
一种基于Kubernetes集群的GPU分时共享方法和系统
[0001]本专利技术涉及计算机
,具体涉及一种基于Kubernetes集群GPU资源实现分时共享的方法和系统。
技术介绍
[0002]近年来,信息化技术日新月异,互联网相关技术更是以前所未有的速度走向成熟,使得我们的日常生活及工作越来越依赖于计算机了;同时这些技术的飞速发展,使得当今社会对于计算服务的质和量的需求日益加高加大。然而,那些传统的计算模式却不能适应现在的这种需求了,这自然而然就会出现新的计算模式来替代它们。云计算(Cloud Computing)就是其中的代表,它作为一种全新的互联网式计算模型出现于公众的视野之中,可以说是现代科学
的重大变革。云计算被视为继互联网之后的下一代网络,俨然成为了以后IT技术研究的核心。
[0003]从云计算技术应用以来,硬件的性能的优化,软件计算的网络化,使得云计算技术快速成长起来。云计算技术也越来越受到各大大中型互联网公司的关注。
[0004]随着虚拟化技术和容器技术的发展,云服务的使用变得更 ...
【技术保护点】
【技术特征摘要】
1.一种基于Kubernetes集群的GPU分时共享方法,其特征在于,包括以下步骤:在Kubernetes集群的工作节点中设置前端模块,所述前端模块是安装在容器内部的GPU设备库,所述GPU设备库通过拦截CUDA库中所有与内存和计算相关的API来调度GPU在任务中的使用;在Kubernetes集群的工作节点中设置后端模块,所述后端模块管理容器间的令牌及令牌的时间配额,通过令牌及其时间配额实现GPU的分时共享。2.根据权利要求1所述的方法,其特征在于,容器只有在持有有效的令牌时才能在GPU上执行其代码;令牌与时间配额相关联,当时间配额超过规定的期限时,容器必须重新获取令牌才能执行。3.根据权利要求1所述的方法,其特征在于,所述后端模块跟踪每个容器的GPU使用时间,并确定下一个令牌的时间配额,来实现容器之间令牌合理地调度;容器的GPU使用率通过在滑动窗口的时间范围内持有的有效令牌的时间配额来计算。4.根据权利要求1所述的方法,其特征在于,所有来自前端模块的令牌请求都在后端模块中排队等待处理;当令牌自身过期无效时,后端模块从队列中选择一个请求,并将令牌发放给该请求的容器。5.根据权利要求4所述的方法,其特征在于,所述后端模块从队列中选择一个请求,包括:首先,从GPU使用率已经超过其最大使用需求的容器中过滤请求,然后从GPU使用率离最小使用需求相差最大的容器中选择一个请求。6.根据权利要求4所述的方法,其特征在于,如果所有请求令牌的容器都已经达到最低使用需求,则所述后端模块将令牌传递给当前GPU使用率最低的那个容器。7.根据权利要求1所述的方法,其特征在于,采用以下步骤进行集群任务调度:第一步:使用适当数目的节点构建GPU共享集群,节点上安装后端模块;第二步:用户使用YAML文件,通过kubectl应用向集群中提交Pod信息,Pod中使用的镜像里应...
【专利技术属性】
技术研发人员:刘万涛,虎嵩林,韩冀中,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。