当前位置: 首页 > 专利查询>杭州电子科技大学舟山同博海洋电子信息研究院有限公司专利>正文

一种基于异构分布式系统的高效神经网络训练调度方法技术方案

技术编号：23985608 阅读：32 留言：0更新日期：2020-04-29 13:22

本发明专利技术公开了一种基于异构分布式系统的高效神经网络训练调度方法。本发明专利技术首先通过资源探测系统探测并分析分布式系统中的资源动态变化；将训练过程分解为内迭代与外迭代作为任务调度系统的重要子集，并根据资源探测系统提供的分布式系统节点状态信息，随后任务调度系统自适应地修改环境参数并调度计算。在公开数据集下进行的相关实验表明，在保证高准确率、收敛率的前提下，本发明专利技术具有更好的鲁棒性和可扩展性。

An efficient neural network training scheduling method based on heterogeneous distributed system

全部详细技术资料下载

【技术实现步骤摘要】
一种基于异构分布式系统的高效神经网络训练调度方法
本专利技术属于分布式机器学习加速
，具体是一种基于异构分布式系统的高效神经网络训练调度方法。
技术介绍
机器学习特别是深度学习，已成为人工智能领域的核心研究内容之一，在图像识别、自然语言处理等领域获得了广泛应用。随着机器学习训练数据集规模及模型参数数量不断增长，单机训练机器学习模型已不能适应大规模数据环境。庞大的训练数据集规模和复杂的模型结构可提高模型准确率，但是会带来更高的时间开销和资源开销。近年来，随着分布式系统发展以及硬件性能的提高，分布式机器学习已经成为业界研究热点。在分布式机器学习框架中，通信是多节点协作训练中必不可少的环节.降低分布式机器学习模型的求解时间开销，关键在于提高节点的有效计算时间占比。因此需要设计合理的通信机制，从而更加高效地训练出模型。通信机制分为同步和异步两类。整体同步并行通信策略BSP(BulkSynchronousParallel)通过引入超步有效地避免死锁。超步是指一系列操作的集合，具体包括：计算、全局通信及同步等待这三个步骤。在一个超步内，各节点以不同的速度执行训练。训练完成后与主节点通信并上传训练结果，随后进入同步等待，直到主节点聚合后下载最新的全局参数。当所有节点完成全局通信后，表明当前超步已执行完毕，随后执行下一个超步。BSP严格执行超步内异步、超步间同步的策略。然而BSP存在一些缺陷：1)通信开销大。BSP强制计算节点在每个超步内进行全局通信，有相关研究表明，在一定条件下通信开销将数倍于计算开销...

【技术保护点】
1.一种基于异构分布式系统的高效神经网络训练调度方法，其特征在于该方法包括如下步骤：/n步骤1.建立基于参数服务器的分布式神经网络训练系统；/n所述的分布式神经网络训练系统，共有两类节点，分别为主节点与工作节点；主节点与工作节点间采用点对点的方式进行通信；/n步骤2.建立资源探测系统；/n利用开源工具Sigar建立资源探测系统；该系统可获取操作系统级别的硬件信息，部署在主节点与工作节点上用于实时获取各节点的资源利用情况；/n步骤3.建立任务调度系统；/n任务调度系统首先将迭代式训练解耦为内迭代与外迭代；其中外迭代执行环境初始化、统计调度性能；内迭代执行具体计算；/n所述外迭代利用资源探测系统获取分布式系统中各节点的实时资源利用情况并计算节点空闲率；随后设置参与训练的节点、进程数；/n在分配节点资源时，首先计算各节点空闲率，然后根据空闲率对各节点降序排序，最后根据实际资源需求量分配节点以及进程数；/n步骤4.设置环境参数；/n在内迭代执行前，针对实时资源可用情况重置环境参数；/n步骤5.开始训练；/n各个工作开始训练神经网络，训练完毕后迭代轮数加1；/n步骤6.重复执行步骤3-步骤5直到完成指定迭代轮数。/n...

【技术特征摘要】
1.一种基于异构分布式系统的高效神经网络训练调度方法，其特征在于该方法包括如下步骤：
步骤1.建立基于参数服务器的分布式神经网络训练系统；
所述的分布式神经网络训练系统，共有两类节点，分别为主节点与工作节点；主节点与工作节点间采用点对点的方式进行通信；
步骤2.建立资源探测系统；
利用开源工具Sigar建立资源探测系统；该系统可获取操作系统级别的硬件信息，部署在主节点与工作节点上用于实时获取各节点的资源利用情况；
步骤3.建立任务调度系统；
任务调度系统首先将迭代式训练解耦为内迭代与外迭代；其中外迭代执行环境初始化、统计调度性能；内迭代执行具体计算；
所述外迭代利用资源探测系统获取分布式系统中各节点的实时资源利用情况并计算节点空闲率；随后设置参与训练的节点、进程数；
在分配节点资源时，首先计算各节点空闲率，然后根据空闲率对各节点降序排序，最后根据实际资源需求量分配节点以及进程数；
步骤4.设置环境参数；
在内迭代执行前，针对...

【专利技术属性】
技术研发人员：张纪林，周详，万健，任永坚，周丽，
申请(专利权)人：杭州电子科技大学舟山同博海洋电子信息研究院有限公司，杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人