【技术实现步骤摘要】
一种基于Kubernetes的多租户机器学习任务资源调度方法
[0001]本专利技术涉及一种基于Kubernetes的多租户机器学习任务资源调度方法,属于电力调控
技术介绍
[0002]目前电网调控领域人工智能技术应用取得了初步的成果,但在算力资源管控方面遇到了算力分散,制约应用的突破问题,各类应用“烟囱式”部署人工智能开发运行环境,造成了底层硬件资源的重复建设、算力分散且较难扩展。
[0003]云计算平台IaaS层主要利用了虚拟化技术实现多租户资源隔离与动态分配,但传统的虚拟化技术自身对硬件资源占用率较高,不适合机器学习模型训练和预测任务的算力资源高利用率场景;并且在应用程序配置、运行、管理等环节的复杂性较高,不利于集群化统筹管理。
[0004]kubernetes具有对服务进行自动化的编排、部署和资源调度等能力深受开发者的欢迎,本专利技术基于kubernetes对资源进行自定义编排调度,支撑新一代调度技术支持系统中人工智能应用开发及服务支撑平台的产品研制工作,用于电网故障辨识与分析、电网运行的预 ...
【技术保护点】
【技术特征摘要】
1.一种基于Kubernetes的多租户机器学习任务资源调度方法,其特征在于:包括如下步骤:计算集群中Node节点已使用资源与已创建容器使用资源的差值,得到Node节点操作系统自身所有进程占用的资源信息;调用Kubernetes API获取Node节点上所有机器学习模型训练与预测任务容器申请的资源信息;将Node节点固有资源容量减去Node节点操作系统自身所有进程占用的资源信息和Node节点上所有机器学习模型训练与预测任务容器申请的资源信息,计算出Node节点实时可用资源信息;根据Node节点实时可用资源信息和Node节点固有资源容量,计算Node节点CPU、GPU和内存的可用率;系统集群资源管控服务预设资源阈值百分比,Node节点CPU、GPU和内存的可用率不低于预设资源阈值百分比的Node节点为机器学习模型训练与预测任务分配算力资源;机器学习任务调度服务将不同用户的机器学习模型训练与预测任务申请的CPU、GPU和内存资源数量发送至系统集群资源管控服务;系统集群资源管控服务通过计算多租户资源配额表、用户资源使用情况表的资源差值得到用户可申请剩余资源,并校验机器学习模型训练与预测任务申请的CPU、GPU和内存数量是否超过用户可申请剩余资源;选择未超过用户可申请剩余资源的Node节点,系统集群资源管控服务将Node节点实时可用资源信息与申请的CPU、GPU和内存数量计算差值,除以Node节点固有资源容量,得到分配出资源后CPU、GPU和内存所剩资源的百分比;选择分配出资源后CPU、GPU和内存所剩资源的百分比大于预设资源阈值百分比的Node节点,将每个Node节点的分配出资源后CPU、GPU和内存所剩资源的百分比进行评分计算,并按评分从大到小进行排序;系统集群资源管控服务从序列中排序在前的Node节点为最优节点,并将最优节点的节点名返回给机器学习任务调度服务,并在用户资源使用情况表中进行持久化存储;机器学习任务调度服务动态生成Kubernetes yaml文件,调用Kubernetes API在最优节点中创建容器运行机器学习模型训练与预测任务。2.根据权利要求1所述的一种基于Kubernetes的多租户机器学习任务资源调度方法,其特征在于:集群中每个Kubernetes Node节点上部署CPU、GPU与内存使用情况采集程序。3.根据权利要求1所述的一种基于Kubernetes的多租户机器学习任务资源调度方法,其特征在于:集群中Node节点固有资源容量...
【专利技术属性】
技术研发人员:杨立波,王宇冬,马斌,李一鹏,栗维勋,袁龙,李昊,季学纯,孙云枫,李佳阳,沈嘉灵,徐丽燕,胡锐锋,劳莹莹,陈子韵,
申请(专利权)人:国网电力科学研究院有限公司国网河北省电力有限公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。