存储介质、机器学习方法和信息处理设备技术

技术编号：35589432 阅读：19 留言：0更新日期：2022-11-16 15:06

公开了一种存储机器学习程序的非暂态计算机可读存储介质、机器学习方法和信息处理设备。该机器学习程序使计算机执行进程，该进程包括：在机器学习的分布式训练中，多个计算节点中的第一计算节点的性能劣化的情况下，在第一计算节点的进程的比率等于或小于阈值的情况下，使多个计算节点中除第一计算节点以外的每个第二计算节点在第一模式下执行机器学习，在该第一模式中，第一计算节点的进程的学习结果不被反映在机器学习上；以及在该比率大于阈值的情况下，使每个第二计算节点在第二模式下执行机器学习，在该第二模式中，将要由第一计算节点的进程处理的训练数据分发给第二计算节点并且由第二计算节点处理。节点并且由第二计算节点处理。节点并且由第二计算节点处理。

全部详细技术资料下载

【技术实现步骤摘要】
存储介质、机器学习方法和信息处理设备

[0001]本文中讨论的实施方式涉及存储介质、机器学习方法和信息处理设备。

技术介绍

[0002]作为深度学习中的机器学习方法，通过数据并行的分布式训练是已知的。在分布式训练中，提供了具有相同神经网络(模型)的多个进程(工作者)，将不同的训练数据部分输入至多个进程，并且执行机器学习。在下文中，存在将机器学习称为训练或简称为学习的情况。
[0003]此处，在机器学习的一个进程中，重复前向传播(Fwd)、后向传播(Bwd)和更新(Up.)的每个处理。在使用多个进程的分布式训练中，在更新处理之前聚合所有进程中的后向传播的结果以获取平均值，并且由每个进程使用该平均值执行更新处理。
[0004]在后向传播中，可以获得指示神经网络的权重在更新权重之后改变多少以减少误差(损失)的权重梯度信息。此外，在更新处理中，基于通过相应进程获得的权重梯度的平均值来更新各种参数的值。
[0005]多个进程的训练结果(权重梯度信息)通过进程之间的通信进行聚合，并且例如通过全局归约(Allreduce)通信实现该聚合。
[0006]图9是用于说明通过数据并行的分布式训练的图。
[0007]在图9中，比较和示出了在正常时间的每个进程的处理时间和存在延迟进程(具有延迟进程)的状态下的每个进程的处理时间。在图9中，数据并行处理由四个进程P0至P3执行，并且在具有延迟进程的状态下，进程P1的前向传播和后向传播延迟。
[0008]在通过数据并行的分布式训练中，当聚合相应进程...

【技术保护点】

【技术特征摘要】
1.一种存储机器学习程序的非暂态计算机可读存储介质，所述机器学习程序使至少一个计算机执行进程，所述进程包括：在通过使用多个计算节点进行机器学习的分布式训练中，所述多个计算节点中的一个或更多个第一计算节点的性能劣化的情况下，在所述第一计算节点的进程与整个进程的比率等于或小于阈值的情况下，使所述多个计算节点中除所述第一计算节点以外的每个第二计算节点在第一模式下执行机器学习，在所述第一模式中，所述第一计算节点的进程的学习结果不被反映在所述机器学习上；以及在所述比率大于所述阈值的情况下，使每个第二计算节点在第二模式下执行机器学习，在所述第二模式中，将要由所述第一计算节点的进程处理的训练数据分发给所述第二计算节点并且由所述第二计算节点处理。2.根据权利要求1所述的非暂态计算机可读存储介质，其中，所述进程还包括：基于所述多个计算节点中的每一个的性能信息，获取所包括的计算节点的数量彼此不同的多个类型的计算节点组在所述第一模式和所述第二模式中的每个处理时间；以及基于所述时间，将包括在从所述多个类型的计算节点组中选择的计算节点组中的多个计算节点设置为所述第二计算节点。3.一种用于计算机执行进程的机器学习方法，所述方法包括：在通过使用多个计算节点进行机器学习的分布式训练中，所述多个计算节点中的一个或更多个第一计算节点的性能劣化的情况下，在所述第一计算节点的进程与整个进程的比率等于或小于阈值的情况下，使所述多个计算节点中除所述第一计算节点以外的每个第二计算节点在第一模式下执行机器学习，在所述第一模式中，所述第一计算节点的进程的学习结果不被反映在所述机器学习上；以及在所述比率大于所述阈值的情况下，使每个第二计算节点在第二模式下执行机器学习，在所述...

【专利技术属性】
技术研发人员：三轮真弘，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人