【技术实现步骤摘要】
一种分布式计算方法、系统、存储介质和电子设备
[0001]本申请涉及分布式计算领域,特别涉及一种分布式计算方法、系统、存储介质和电子设备。
技术介绍
[0002]目前,现有基于分布式深度学习模型训练节点间通信方法大致可以分为基于多线程方法、基于线程池方法、事件驱动技术、以及远程过程调用方法。
[0003]但上述方法均存在算法逻辑复杂且计算量大使得算法性能受限的问题。深度学习问题的有效解决方案通常依赖于大数据集和大模型的支撑。然而,已有研究已经证明低效的通信方式训练神经网络模型至少花费数周的时间,因而对于时间敏感型任务场景难以适用。
[0004]因此,如何提高分布式计算效率是本领域技术人员亟需解决的技术问题。
技术实现思路
[0005]本申请的目的是提供一种分布式计算方法、系统、存储介质和电子设备,能够有效降低计算节点之间的通信开销,提高计算节点间的通信效率,从而提高分布式计算的整体效率。
[0006]为解决上述技术问题,本申请提供一种分布式计算方法,具体技术方案包括:获取分布式计算任务 ...
【技术保护点】
【技术特征摘要】
1.一种分布式计算方法,其特征在于,包括:获取分布式计算任务;将所述分布式计算任务进行任务分解,得到子任务,并将所述子任务分配至各个计算节点;在每个计算节点中,利用训练线程训练所述子任务得到训练结果并存至第一缓存,利用通信线程获取当前全局数据存储至第二缓存;所述训练线程和所述通信线程均完成一次迭代后,交换所述第一缓存和所述第二缓存中的数据;在下一次迭代时,将所述当前全局数据作为所述训练线程下一次训练的初始值;所述训练结果用于作为所述计算节点本次迭代的中间数据;直至迭代预设次数后得到计算节点对应的局部解;聚合各所述局部解,得到所述分布式计算任务的训练结果。2.根据权利要求1所述的分布式计算方法,其特征在于,将所述分布式计算任务进行任务分解,得到子任务包括:将所述分布式计算任务进行数据分解,得到子数据任务。3.根据权利要求1所述的分布式计算方法,其特征在于,将所述分布式计算任务进行任务分解,得到子任务包括:将所述分布式计算任务进行模型分解,得到子模型任务。4.根据权利要求1所述的分布式计算方法,其特征在于,将所述分布式计算任务进行数据分解,得到子数据任务包括:将所述分布式计算任务进行数据与模型的并行分解,得到子计算任务。5.根据权利要求1
‑
4任一项所述的分布式计算方法,其特征在于,利用训练线程训练所述子任务得到训练结果并存至第一缓存包括:利用包含优化算法的训练线程训练所述子任务得到训练结果并存至第一缓存。6.根据权利要求5所述的分布式计算方法,其特征在于,若所述优化算法为梯度优化算法,则所述利用包含优化算法的训练线程训练所述子任务得到训练结果并存至第一缓存包括:在所述训练线程中利用一阶优化算法或高阶优化算法训练所述子任务得到训练结果并存至第一缓存。7.根据权利要求5所述的分布式计算方法,其特征在于,若所述子任务包含不可求导函数或偏导数,所述利用包含优化算法的训练线程训练所述子任务得到训练结果并存至第一缓存包括:在所述训练线程中利用非梯度类优化算法训练所述子任务得到训练结果并存至第一缓存。8.根据权利要求1所述的分布式计算方法,其特征在于,利用训练线程训练所述子任务得到训练结果并存至第一缓存时,还包括:确定各所述计算节点的执行前向传播计算和反向传播计算的并行流水线;按照所述并行流水线执行各所述计算节点的迭代计算;其中,所述并行流水线中各所述计算节点在同一时刻执行不同迭代计算过程。9.根据权利要求8所述的分布式计算方法,其特征在于,所述确定各所述计算节点的执行前...
【专利技术属性】
技术研发人员:闫瑞栋,郭振华,赵雅倩,刘璐,金良,徐聪,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。