面向异构计算系统的故障节点切换方法、装置和设备制造方法及图纸

技术编号：38759987 阅读：15 留言：0更新日期：2023-09-10 09:44

本发明专利技术涉及多元异构计算技术领域，公开了面向异构计算系统的故障节点切换方法、装置和设备，当检测到存活信息异常的故障节点时，收集网络带宽信息；根据存活信息和任务运行状态，确定出可用计算节点。依据各可用计算节点的参数量、计算耗时以及网络带宽信息，确定出各可用计算节点部署故障节点的分布式训练后的迭代耗时。基于迭代耗时、峰值算力以及平均耗时，从各可用计算节点中选取出替换节点，保证了在尽量不浪费计算资源并且尽量不影响计算效率的同时，选择出最优的替换节点；将故障节点所对应的训练模型和参数下发至替换节点，向替换节点部署故障节点所属的通信环和环连接顺序，使得替换节点代替故障节点工作，保证了训练任务的继续运行。了训练任务的继续运行。了训练任务的继续运行。

全部详细技术资料下载

【技术实现步骤摘要】
面向异构计算系统的故障节点切换方法、装置和设备

[0001]本专利技术涉及多元异构计算
，特别是涉及面向异构计算系统的故障节点切换方法、装置和设备。

技术介绍

[0002]随着人工智能（Artificial Intelligence，AI）技术的发展，大型神经网络模型的优势逐渐体现。在该背景下，学界业界开始大量投入研究参数量更大的神经网络模型，这也使大型神经网络模型的训练难度快速增长。目前为了实现大型神经网络模型的训练，普遍使用分布式训练的方式，将训练数据或大型网络模型进行拆分，并将拆分后的数据与子训练任务部署到多个计算芯片上，使大型神经网络模型的训练成为可能。
[0003]近年来，多元异构计算系统概念被提出。在多元异构计算系统中，不同计算性能的计算节点会被接入到同一个分布式计算系统中，并用于协同进行分布式训练大型神经网络模型。其中，计算节点可以为异构计算芯片或计算卡。
[0004]大规模分布式训练任务往往非常耗时，且一旦有一个分布式训练的计算节点出现了故障，将影响整个分布式训练的运行，最终有可能导致几天、甚至几周的大规模训练完全浪费，极大的浪费计算资源。
[0005]可见，如何在复杂的异构计算系统中选择最优的替换节点，是本领域技术人员需要解决的问题。

技术实现思路

[0006]本专利技术实施例的目的是提供一种面向异构计算系统的故障节点切换方法、装置、设备和计算机可读存储介质，可以解决在复杂的异构计算系统中选择最优的替换节点的问题。
[0007]为解决上述技术问题...

【技术保护点】

【技术特征摘要】
1.一种面向异构计算系统的故障节点切换方法，其特征在于，包括：当检测到存活信息异常的故障节点的情况下，收集异构计算系统的网络带宽信息；根据每个计算节点的存活信息和任务运行状态，确定出所述异构计算系统中的可用计算节点；依据各所述可用计算节点的参数量、计算耗时以及所述网络带宽信息，确定出各所述可用计算节点部署所述故障节点的分布式训练后的迭代耗时；基于各所述可用计算节点的迭代耗时、峰值算力以及所述故障节点所对应的分布式训练任务的平均耗时，从各所述可用计算节点中选取出替换节点；将所述故障节点所对应的训练模型和参数下发至所述替换节点，并向所述替换节点部署所述故障节点所属的通信环和环连接顺序，以使得所述替换节点代替所述故障节点工作。2.根据权利要求1所述的面向异构计算系统的故障节点切换方法，其特征在于，在所述当检测到存活信息异常的故障节点的情况下，收集异构计算系统的网络带宽信息之前，还包括：定期更新异构计算系统的监控信息；其中，所述监控信息包括每个计算节点的地址信息、异构算力类型标识、峰值算力、存活信息、任务运行状态、计算耗时、任务标识、参数量以及每个分布式训练任务对应的平均耗时。3.根据权利要求2所述的面向异构计算系统的故障节点切换方法，其特征在于，针对于所述监控信息的建立过程，所述方法包括：获取分布式训练任务的训练信息；其中，所述训练信息包括所述分布式训练任务的算力需求、参数量、计算节点类型、异构计算系统中每个计算节点的地址信息；获取每个计算节点的运行信息；其中，所述运行信息包括每个计算节点的存活信息、峰值算力、任务运行状态、计算耗时以及运行分布式训练任务的单步耗时；依据每个分布式训练任务下所对应的计算节点的单步耗时，确定出每个分布式训练任务对应的平均耗时；根据每个分布式训练任务的平均耗时以及每个计算节点所对应的训练信息和运行信息，构建出监控信息。4.根据权利要求3所述的面向异构计算系统的故障节点切换方法，其特征在于，所述依据每个分布式训练任务下所对应的计算节点的单步耗时，确定出每个分布式训练任务对应的平均耗时包括：基于每个计算节点的单步耗时及其对应的分布式训练任务，确定出每个分布式训练任务下单步耗时最长的计算节点；将每个所述单步耗时最长的计算节点的单步耗时平均值作为其对应的分布式训练任务的平均耗时。5.根据权利要求2所述的面向异构计算系统的故障节点切换方法，其特征在于，所述依据各所述可用计算节点的参数量、计算耗时以及所述网络带宽信息，确定出各所述可用计算节点部署所述故障节点的分布式训练后的迭代耗时包括：依据所述故障节点所对应的分布式训练任务类型，从所述监控信息中确定出匹配的目标参数量；
从所述网络带宽信息中确定出前向计算节点与目标可用计算节点之间的上行通信带宽，以及目标可用计算节点与后向计算节点之间的下行通信带宽；其中，所述前向计算节点为与所述故障节点相邻的前一个计算节点；所述后向计算节点为与所述故障节点相邻的后一个计算节点；所述目标可用计算节点为所有可用计算节点中的任意一个可用计算节点；基于所述目标参数量、所述上行通信带宽和所述下行通信带宽，确定出所述目标可用计算节点的通信耗时；依据所述监控信息确定出所述故障节点所对应的分布式训练任务类型的计算耗时；根据所述目标可用计算节点的通信耗时和计算耗时，确定出所述目标可用计算节点的迭代耗时。6.根据权利要求5所述的面向异构计算系统的故障节点切换方法，其特征在于，所述基于所述目标参数量、所述上行通信带宽和所述下行通信带宽，确定出所述目标可用计算节点的通信耗时包括：根据所述目标参数量与所述下行通信带宽，确定出所述目标可用计算节点的下行通信耗时；根据所述目标参数量与所述上行通信带宽，确定出所述目标可用计算节点的上行通信耗时；从所述下行通信耗时和所述上行通信耗时中选取最大值作为所述目标可用计算节点的通信耗时。7.根据权利要求6所述的面向异构计算系统的故障节点切换方法，其特征在于，所述根据所述目标参数量与所述下行通信带宽，确定出所述目标可用计算节点的下行通信耗时包括：将所述目标参数量与所述下行通信带宽的比值作为所述目标可用计算节点的下行通信耗时。8.根据权利要求6所述的面向异构计算系统的故障节点切换方法，其特征在于，所述根据所述目标参数量与所述上行通信带宽，确定出所述目标可用计算节点的上行通信耗时包括：将所述目标参数量与所述上行通信带宽的比值作为所述目标可用计算节点的上行通信耗时。9.根据权利要求5所述的面向异构计算系统的故障节点切换方法，其特征在于，所述依据所述监控信息确定出所述故障节点所对应的分布式训练任务类型的计算耗时包括：从所述监控信息中查询所述故障节点所对应的分布式训练任务类型的计算耗时；在所述故障节点所对应的分布式训练任务类型的计算耗时为多个的情况下，将多个计算耗时的平均值作为所述故障节点所对应的分布式训练任务类型最终的计算耗时。10.根据权利要求9所述的面向异构计算系统的故障节点切换方法，其特征在于，还包括：在所述监控信息中不存在与所述故障节点所对应的分布式训练任务类型匹配的计算耗时的情况下，基于所述故障节...

【专利技术属性】
技术研发人员：唐轶男，赵雅倩，郭振华，李仁刚，王丽，曹芳，高开，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人