The embodiment of the present invention discloses a flexible telescopic system and method for deep learning task based on kubernetes platform. The system includes data acquisition module, data monitoring module and data storage module. The acquisition module is set at the computing node of kubernetes platform, and the data monitoring module and data storage module are set at the management node of kubernetes platform. The data acquisition module, data monitoring module and data storage module are connected in turn. In the present invention, the computing node of the kubernetes platform sets up the memory utilization ratio of the data acquisition module acquisition container, and then sets up the data monitoring module and the data storage module through the management node of the kubernetes platform. The data monitoring module collects the container utilization ratio collected on each computing node and then carries the data storage module after centralized collection. The management node passes the data storage module. The memory utilization rate saved in the block is increased according to the preset rules, so that the training state of the container is optimal and the efficiency of deep learning training is improved.
【技术实现步骤摘要】
一种基于kubernetes平台的深度学习任务弹性伸缩系统及方法
本专利技术涉及深度学习
,特别是涉及一种基于kubernetes平台的深度学习任务弹性伸缩系统及方法。
技术介绍
人工智能的兴起,被人们称之为“第四次工业革命”标志,现在越来越多的人工智能应用走进我们的生活,包括人脸识别、图片识别、语音识别、智能驾驶、智能理财等。人工智能的本质就是使用大量的历史数据,基于特定的数据模型,经过反复的训练,使数据模型具备自我分辨的能力。Tensorflow作为人工智能领域优秀的分布式机器学习系统,在生产环境中已经得到广泛的应用。现有技术中,通过Tensorflow系统进行深度学习的过程为:在kubernetes平台的计算节点设置训练容器,将训练数据划分为若干等分,通过控制节点向容器分配训练数据,进行并行训练。然而,现有技术中,训练容器的数量是人为指定的,容器数量是否已经达到最优无法预知,当设置的容器数量过少时候,每个容器的计算能力就受到限制,当设置的容器数量过多时会造成资源的浪费,从整体上影响了深度学习训练效率。
技术实现思路
本专利技术实施例中提供了一种基于kubernetes平台的深度学习任务弹性伸缩系统及方法,以解决现有技术中深度学习训练效率低的问题。为了解决上述技术问题,本专利技术实施例公开了如下技术方案:本专利技术第一方面提供了一种基于kubernetes平台的深度学习任务弹性伸缩系统,包括:数据采集模块、数据监控模块以及数据存储模块,其中所述采集模块设置于kubernetes平台的计算节点,所述数据监控模块以及数据存储模块设置于kubernetes ...
【技术保护点】
1.一种基于kubernetes平台的深度学习任务弹性伸缩系统,其特征在于,包括:数据采集模块、数据监控模块以及数据存储模块,其中所述采集模块设置于kubernetes平台的计算节点,所述数据监控模块以及数据存储模块设置于kubernetes平台的管理节点,所述数据采集模块、数据监控模块以及数据存储模块依次通信连接。
【技术特征摘要】
1.一种基于kubernetes平台的深度学习任务弹性伸缩系统,其特征在于,包括:数据采集模块、数据监控模块以及数据存储模块,其中所述采集模块设置于kubernetes平台的计算节点,所述数据监控模块以及数据存储模块设置于kubernetes平台的管理节点,所述数据采集模块、数据监控模块以及数据存储模块依次通信连接。2.根据权利要求1所述的基于kubernetes平台的深度学习任务弹性伸缩系统,其特征在于,所述系统还包括容器设置模块,所述容器设置模块设置于kubernetes平台的计算节点并与所述数据存储模块通信连接。3.根据权利要求1或2所述的基于kubernetes平台的深度学习任务弹性伸缩系统,其特征在于,所述系统还包括资源调度模块,所述资源调度模块设置于kubernetes平台的计算节点并与所述容器设置模块连接,用于向容器分配训练数据。4.根据权利要求3所述的基于kubernetes平台的深度学习任务弹性伸缩系统,其特征在于,所述数据采集模块包括:cAd...
【专利技术属性】
技术研发人员:刘娜,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。