用于故障恢复的系统、设备和方法技术方案

技术编号:37504272 阅读:24 留言:0更新日期:2023-05-07 09:39
提供用于故障恢复的系统、设备和方法。所述系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。一个或多个工作者节点。一个或多个工作者节点。

【技术实现步骤摘要】
用于故障恢复的系统、设备和方法
[0001]本申请要求于2021年11月1日在韩国知识产权局提交的第10

2021

0148296号韩国专利申请的权益,该韩国专利申请的全部公开通过引用合并于此。


[0002]以下描述涉及用于故障恢复的系统、设备和方法。

技术介绍

[0003]当在深度神经网络(DNN)的分布式训练操作处理中发生故障时,1)工作者处理的手动恢复以及2)通过磁盘检查点的状态修复可恢复操作。

技术实现思路

[0004]提供本
技术实现思路
来以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在确认要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
[0005]在一个总体方面,一种具有故障恢复的系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。
[0006]针对检测故障的处理,主节点可被配置为:从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号。
[0007]针对检测故障的处理,主节点可被配置为:基于所述状态信号来确定在所述工作者处理中是否发生故障。
[0008]针对调整集体通信参与者列表的处理,主节点可被配置为:响应于检测到故障,通过排除在其中发生故障的工作者节点来调整集体通信参与者列表。
[0009]所述多个工作者节点中的每个可被配置为:响应于在对应时段中未发生故障,将在对应时段中执行的工作状态的副本存储在第一存储器中。
[0010]调整后的参与者列表中的所述一个或多个工作者节点中的每个可被配置为:加载存储在第一存储器中的副本并且基于副本执行分布式训练。
[0011]所述系统可包括:远程处理执行模块,被配置为:响应于在其中发生故障的工作者节点被恢复,重新执行恢复的工作者节点的工作者处理。
[0012]主节点可被配置为:响应于所述工作者处理被重新执行,通过添加恢复的工作者节点来调整集体通信参与者列表。
[0013]在另一总体方面,一种具有故障恢复的设备包括:一个或多个处理器,被配置为:从集体通信参与者列表中的多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号;基于所述状态信号来确定所述工作者处理中是否发生故障;基于确定发生故障,通过从参与者列表排除在其中发生故障的工作者
节点来调整参与者列表;以及将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。
[0014]在另一总体方面,一种具有故障恢复的处理器实现的方法包括:由主节点基于预定时段检测多个工作者节点的故障;响应于检测到故障,由主节点调整集体通信参与者列表;由主节点将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点;以及在调整后的参与者列表中的所述一个或多个工作者节点中的每个中训练预定数量的小批量。
[0015]检测故障的步骤还可包括:由主节点从所述多个工作者节点中的每个接收用于验证在由对应的节点执行的工作者处理中是否发生故障的状态信号。
[0016]检测故障的步骤还可包括:由主节点基于所述状态信号来确定在所述工作者处理中是否发生故障。
[0017]调整集体通信参与者列表的步骤可包括:响应于检测到故障,由主节点通过排除在其中发生故障的工作者节点来调整集体通信参与者列表。
[0018]所述方法可包括:响应于在所述多个工作者节点中的每个中在对应时段中未发生故障,将在对应时段中执行的工作状态的副本存储在第一存储器中。
[0019]训练小批量的步骤可包括:加载存储在第一存储器中的副本并且基于副本在所述多个工作者节点中的每个中执行分布式训练。
[0020]所述方法可包括:响应于在其中发生故障的工作者节点被恢复,在远程处理执行模块中重新执行恢复的工作者节点的工作者处理。
[0021]所述方法可包括:响应于所述工作者处理被重新执行,由主节点通过添加恢复的工作者节点来调整集体通信参与者列表。
[0022]在另一总体方面,一个或多个实施例包括存储指令的非暂时性计算机可读存储介质,所述指令在由一个或多个处理器执行时将所述一个或多个处理器配置为执行在此描述的任何一个、任何组合或所有操作和方法。
[0023]在另一总体方面,一种具有故障恢复的处理器实现的方法包括:从集体通信参与者列表中的多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号;基于所述状态信号来确定所述工作者处理中是否发生故障;基于确定发生故障,通过从参与者列表排除在其中发生故障的工作者节点来调整参与者列表;以及将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。
[0024]在另一总体方面,一种具有故障恢复的处理器实现的方法包括:由集体通信参与者列表中的工作者节点发送用于验证在由所述工作者节点执行的工作者处理中是否发生故障的状态信号;由所述工作者节点接收排除执行在其中发生故障的工作者处理的另一工作者节点的调整后的参与者列表;以及响应于接收到调整后的参与者列表,由所述工作者节点训练预定数量的小批量。
[0025]所述方法可包括:响应于接收到调整后的参与者列表,由所述工作者节点读取所述工作者节点的第一存储器的存储器内检查点,其中,训练的步骤可包括:响应于读取存储器内检查点,训练预定数量的小批量。
[0026]所述方法可包括:响应于确定训练未完成,将由训练生成的模型参数作为另一存
储器内检查点写入第一存储器。
[0027]第一存储器可以是所述工作者节点的通用存储器,并且所述工作者节点的第二存储器可以是用于驱动人工神经网络以执行训练的专用模块。
[0028]根据下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
[0029]图1示出故障恢复系统的示例。
[0030]图2示出通过动态汇聚的工作者处理故障恢复方法的示例。
[0031]图3示出故障恢复方法的示例。
[0032]图4A和图4B示出使用动态汇聚和存储器内检查点从故障自动恢复分布式训练操作的处理的示例。
[0033]图5示出远程工作者处理重新执行方法的示例。
[0034]图6示出故障恢复设备的示例。
[0035]贯穿附图和具体实施方式,除非另有描述或提供,否则相同的附图参考标号将被理解为指代相同的元件、特征和结构。附图可不按比例,并且为了清楚、示出和方便,附图中的元件的相对大小、比例和描绘可被夸大。
具体实施方式
[0036]提供以下具体实施方式以帮助读者获得对在此描述的方法、设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于故障恢复的系统,所述系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点。2.根据权利要求1所述的系统,其中,针对检测故障的处理,主节点被配置为:从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号。3.根据权利要求2所述的系统,其中,针对检测故障的处理,主节点被配置为:基于所述状态信号来确定在所述工作者处理中是否发生故障。4.根据权利要求1所述的系统,其中,针对调整集体通信参与者列表的处理,主节点被配置为:响应于检测到故障,通过排除在其中发生故障的工作者节点来调整集体通信参与者列表。5.根据权利要求1所述的系统,其中,所述多个工作者节点中的每个被配置为:响应于在对应时段中未发生故障,将在对应时段中执行的工作状态的副本存储在第一存储器中。6.根据权利要求1所述的系统,其中,调整后的集体通信参与者列表中的所述一个或多个工作者节点中的每个被配置为:加载存储在第一存储器中的副本并且基于副本执行分布式训练。7.根据权利要求1至6中的任意一项所述的系统,还包括:远程处理执行模块,被配置为:响应于在其中发生故障的工作者节点被恢复,重新执行恢复的工作者节点的工作者处理。8.根据权利要求7所述的系统,其中,主节点被配置为:响应于所述工作者处理被重新执行,通过添加恢复的工作者节点来调整集体通信参与者列表。9.一种用于故障恢复的设备,所述设备包括:一个或多个处理器,被配置为:从集体通信参与者列表中的多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号;基于所述状态信号来确定所述工作者处理中是否发生故障;基于确定发生故障,通过从集体通信参与者列表排除在其中发生故障的工作者节点来调整集体通信参与者列表;以及将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点。10.一种用于故障恢复的方法,所述方法包括:由主节点基于预定时段检测多个工作者节点的故障;响应于检测到故障,由主节点调整集体通信参与者列表;由主节点将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点;以及
在调整后的集体通信参与者列表中的所述一个或多个工作者节点中的每个中训练预定数量的小批量。11.根据权利要求10所述的方法,其中,检测故障的步骤还包括:由主节点从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故...

【专利技术属性】
技术研发人员:金容德李炅根鱼丁允田炳坤慎眼宰
申请(专利权)人:首尔大学校产学协力团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1