The invention relates to a scheduling method and system of a deep learning framework, in which the system includes a global resource manager, multiple node managers NodeManager, application manager, and resource container Container; an image processor GPU option is added to the configuration options of the YARN scheduling system and whether or not the image processor GPU is used, and in which the application Manager NodeManager, Application Master and resource container Container are added. The resource types of image processor GPU, the weight settings of image processor GPU, and the general interface of GPU searchable depth first are added in the global resource manager. A separate client is designed for each application and some application managers are modified to integrate the YARN scheduling system with other system software. The system and system of the present invention, combined with the traditional large data cluster framework HadoopYARN, can realize the management and scheduling of GPU resources on Hadoop platform. In the system of the present invention, the deep learning framework is used as a common program to schedule, greatly improving the ability of GPU to be used.
【技术实现步骤摘要】
一种深度学习框架的调度方法及系统
本专利技术涉及人工智能深度学习
,尤其涉及一种深度学习框架的调度方法及系统。
技术介绍
近年来,深度学习已经广泛地应用于语音识别,机器翻译,计算机视觉等领域,都取得了很好的效果。随着深度学习理论的兴起,多种深度学习的编程框架不断涌现。TensorFlow、Caffe、PyTorch等深度学习框架在架构、性能、模型构建等许多方面都差异甚大。每种框架都有其特别适用的领域,而统一管理调度这些框架的平台却非常缺乏,极少数支持的平台,例如腾讯的DI-平台,非开源,对自身的业务支持性很好,但是可扩展性不足。另一方面,深度学习理论的发展离不开GPU硬件的进步。GPU(GraphicsProcessingUnit,图形处理器)是一种专门的图像运算处理器,主要工作于个人计算机、高性能服务器或移动设备之上,为它们加速各种3D图像和特效的处理。对于很多科学计算而言,性能主要取决于GPU的浮点计算能力,特别是对深度学习任务来说。但是,由于涉及GPU的计算很多本身就需要巨大的计算量,单机通常无法在短时间内完成,因此GPU的集群化管理和使用成为一种必然 ...
【技术保护点】
1.一种深度学习框架的调度系统,包括全局资源管理器ResourceManager、多个节点管理器NodeManager、应用程序管理器ApplicationMaster和资源容器Container;其特征在于,在所述YARN调度系统的配置选项中增加图像处理器GPU选项以及是否使用图像处理器GPU,并在所述全局资源管理器ResourceManager中增加图像处理器GPU的资源类型、添加图像处理器GPU的权重设置、增加可深度优先搜索GPU通用接口;对每种应用设计单独的客户端并修改部分应用程序管理器,使更改配置后的YARN调度系统与其他系统软件相结合。
【技术特征摘要】
1.一种深度学习框架的调度系统,包括全局资源管理器ResourceManager、多个节点管理器NodeManager、应用程序管理器ApplicationMaster和资源容器Container;其特征在于,在所述YARN调度系统的配置选项中增加图像处理器GPU选项以及是否使用图像处理器GPU,并在所述全局资源管理器ResourceManager中增加图像处理器GPU的资源类型、添加图像处理器GPU的权重设置、增加可深度优先搜索GPU通用接口;对每种应用设计单独的客户端并修改部分应用程序管理器,使更改配置后的YARN调度系统与其他系统软件相结合。2.根据权利要求1所述的调度系统,其特征在于,所述YARN调度系统具体通过以下步骤进行配置:在ResourceManager中的ResourceType.java文件里增加GPU的资源类型,使GPU成为调度器的一种资源类型;在ResourceManager中的ResourceWeight.java文件里增加GPU的权重设置;在hadoop-yarn-common里的GpuResourceCalculator.java中增加可深度优先搜索GPU的通用接口;扩展DRF算法,使YARN调度器可以支持GPU的调度;在NodeManager里的NodeStatusUpdateImpl.java文件里增加当前各个节点GPU总数及可用GPU的状态检测;在NodeManager里的NodeManager.java文件里增加对当前各个节点正在使用的GPU状态检测;在yarn-site.xml里增加每个槽的GPU数量,GPU过载数量,单个任务每个节点最大、最小可分配GPU数量,以及是否使用GPU资源。3.根据权利要求1所述的调度系统,其特征在于,所述对每种应用设计单独的客户端并修改部分ApplicationMaster,使更改配置后的YARN调度系统与其他系统软件相结合步骤,包括:在客户端,对用户提交应用程序脚本的信息进行识别,并进行相应的初始化;监控应用程序,Client获取唯一的ApplicationID,向数据结构ApplicationSubmissionContext中放入启动ApplicationMaster所需的所有信息;将ApplicationMaster中从YARN调度系统中获取的节点资源转换为相应JSON格式。4.一种基于YARN调度...
【专利技术属性】
技术研发人员:辛锐,刘芳,陈连栋,陆忠华,李井泉,王珏,孙辰军,冯仰德,申培培,周文芳,路欣,
申请(专利权)人:国家电网公司,国网河北省电力有限公司信息通信分公司,中国科学院计算机网络信息中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。