【技术实现步骤摘要】
用于故障恢复的系统、设备和方法
[0001]本申请要求于2021年11月1日在韩国知识产权局提交的第10
‑
2021
‑
0148296号韩国专利申请的权益,该韩国专利申请的全部公开通过引用合并于此。
[0002]以下描述涉及用于故障恢复的系统、设备和方法。
技术介绍
[0003]当在深度神经网络(DNN)的分布式训练操作处理中发生故障时,1)工作者处理的手动恢复以及2)通过磁盘检查点的状态修复可恢复操作。
技术实现思路
[0004]提供本
技术实现思路
来以简化的形式介绍在下面的具体实施方式中进一步描述的构思的选择。本
技术实现思路
不意在确认要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
[0005]在一个总体方面,一种具有故障恢复的系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的参与者列表发送到调整后的参与者列表中的一个或多个工作者节点。
[0006]针对检测故障的处理,主节点可被配置为:从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号。
[0007]针对检测故障的处理,主节点可被配置为:基于所述状态信号来确定在所述工作者处理中是否发生故障。
[0008]针对调整集体通信参与者列表的处理 ...
【技术保护点】
【技术特征摘要】
1.一种用于故障恢复的系统,所述系统包括:多个工作者节点,被配置为执行分布式训练;以及主节点,被配置为控制所述多个工作者节点,其中,主节点被配置为:基于预定时段检测所述多个工作者节点的故障;响应于检测到故障,调整集体通信参与者列表;和将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点。2.根据权利要求1所述的系统,其中,针对检测故障的处理,主节点被配置为:从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号。3.根据权利要求2所述的系统,其中,针对检测故障的处理,主节点被配置为:基于所述状态信号来确定在所述工作者处理中是否发生故障。4.根据权利要求1所述的系统,其中,针对调整集体通信参与者列表的处理,主节点被配置为:响应于检测到故障,通过排除在其中发生故障的工作者节点来调整集体通信参与者列表。5.根据权利要求1所述的系统,其中,所述多个工作者节点中的每个被配置为:响应于在对应时段中未发生故障,将在对应时段中执行的工作状态的副本存储在第一存储器中。6.根据权利要求1所述的系统,其中,调整后的集体通信参与者列表中的所述一个或多个工作者节点中的每个被配置为:加载存储在第一存储器中的副本并且基于副本执行分布式训练。7.根据权利要求1至6中的任意一项所述的系统,还包括:远程处理执行模块,被配置为:响应于在其中发生故障的工作者节点被恢复,重新执行恢复的工作者节点的工作者处理。8.根据权利要求7所述的系统,其中,主节点被配置为:响应于所述工作者处理被重新执行,通过添加恢复的工作者节点来调整集体通信参与者列表。9.一种用于故障恢复的设备,所述设备包括:一个或多个处理器,被配置为:从集体通信参与者列表中的多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故障的状态信号;基于所述状态信号来确定所述工作者处理中是否发生故障;基于确定发生故障,通过从集体通信参与者列表排除在其中发生故障的工作者节点来调整集体通信参与者列表;以及将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点。10.一种用于故障恢复的方法,所述方法包括:由主节点基于预定时段检测多个工作者节点的故障;响应于检测到故障,由主节点调整集体通信参与者列表;由主节点将调整后的集体通信参与者列表发送到调整后的集体通信参与者列表中的一个或多个工作者节点;以及
在调整后的集体通信参与者列表中的所述一个或多个工作者节点中的每个中训练预定数量的小批量。11.根据权利要求10所述的方法,其中,检测故障的步骤还包括:由主节点从所述多个工作者节点中的每个接收用于验证在由对应的工作者节点执行的工作者处理中是否发生故...
【专利技术属性】
技术研发人员:金容德,李炅根,鱼丁允,田炳坤,慎眼宰,
申请(专利权)人:首尔大学校产学协力团,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。