【技术实现步骤摘要】
一种慢节点检测方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,尤其涉及集群系统、分布式机器学习、节点故障检测等领域。
技术介绍
[0002]在集群系统的多个节点或一个节点下的多个电子设备(如终端设备或服务器等)中,可以基于人工智能技术,执行大规模的模型训练任务,以得到处理效率更高的模型,将训练得到的该模型部署于该集群系统中,可以提高集群系统的整体运行效率。
[0003]然而,在大规模的训练任务中,难以检测出造成训练任务执行故障或者性能下降的问题节点(即慢节点),如何检测出该慢节点,成为需要解决的问题。
技术实现思路
[0004]本公开提供了一种慢节点检测方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种慢节点检测方法,包括:
[0006]感知模块向第一节点发起计时请求,其中,所述第一节点为一个或多个在集群系统中执行训练任务的训练节点;
[0007]所述感知模块接收所述第一节点反馈的计时信息;
[0008]所述感知模块根据所述计时信息检测出所述集群系统存在慢节点。
[0009]根据本公开的另一方面,提供了一种慢节点检测方法,包括:
[0010]第一节点接收感知模块发起的计时请求;其中,所述第一节点为一个或多个在集群系统中执行训练任务的训练节点;
[0011]所述第一节点基于所述计时请求进行集合通信操作,完成所述集群系统中的数据交换,得到计时信息;
[0012]所述第一节点向所述感知 ...
【技术保护点】
【技术特征摘要】
1.一种慢节点检测方法,包括:感知模块向第一节点发起计时请求,其中,所述第一节点为一个或多个在集群系统中执行训练任务的训练节点;所述感知模块接收所述第一节点反馈的计时信息;所述感知模块根据所述计时信息检测出所述集群系统存在慢节点。2.根据权利要求1所述的方法,其中,所述感知模块根据所述计时信息检测出所述集群系统存在慢节点,包括:所述感知模块在所述计时信息大于阈值的情况下,检测出所述集群系统存在慢节点。3.根据权利要求1所述的方法,还包括:所述感知模块向所述第一节点发起暂停训练任务的请求;所述感知模块运行慢节点检测程序,检测出所述慢节点在所述集群系统中的位置。4.根据权利要求3所述的方法,其中,所述感知模块运行慢节点检测程序,检测出所述慢节点在所述集群系统中的位置,包括:所述感知模块以单机检测、集群检测、二分法的方式循环执行集合通信检测中的至少一种检测模式运行所述慢节点检测程序,检测出所述慢节点在所述集群系统中的位置。5.根据权利要求1
‑
4中任一项所述的方法,还包括:所述感知模块将慢节点信息通知调度模块,所述慢节点信息用于表征所述慢节点在所述集群系统中的位置;其中,所述调度模块位于所述第一节点、或与所述第一节点存在通信交互的第二节点。6.一种慢节点检测方法,包括:第一节点接收感知模块发起的计时请求;其中,所述第一节点为一个或多个在集群系统中执行训练任务的训练节点;所述第一节点基于所述计时请求进行集合通信操作,完成所述集群系统中的数据交换,得到计时信息;所述第一节点向所述感知模块发送所述计时信息。7.根据权利要求6所述的方法,还包括:所述第一节点接收所述感知模块发起的暂停训练任务的请求;所述第一节点响应所述暂停训练任务的请求,暂停训练任务,存储所述训练任务的进度状态;所述第一节点通知所述感知模块运行慢节点检测程序。8.根据权利要求7所述的方法,还包括:调度模块接收所述感知模块发送的慢节点信息,所述慢节点信息用于表征所述慢节点在所述集群系统中的位置;所述调度模块位于所述第一节点的情况下,所述第一节点接受所述调度模块的调度控制,根据所述慢节点信息,将由所述慢节点执行的所述训练任务的进度状态替换到正常的备选节点,继续执行所述训练任务。9.根据权利要求7所述的方法,还包括:调度模块接收所述感知模块发送的慢节点信息,所述慢节点信息用于表征所述慢节点在所述集群系统中的位置;
所述调度模块位于与所述第一节点存在通信交互的第二节点的情况下,所述第一节点接收所述慢节点信息,所述慢节点信息为:所述第二节点接受所述调度模块的调度控制后转发给所述第一节点的信息;所述第一节点根据所述慢节点信息,将由所述慢节点执行的所述训练任务的进度状态替换到正常的备选节点,继续执行所述训练任务。10.根据权利要求8或9所述的方法,其中,所述备选节点,与所述慢节点存在主备倒换关系。11.一种慢节点检测装置,包括感知模块,用于:向第一节点发起计时请求,其中,所述第一节点为一个或多个在集群系统中执行训练任务的训练节点;接收所述第一节点反馈的计时信息;根据所述计时信息检测出所述集群系统存在慢节点。12...
【专利技术属性】
技术研发人员:付浩瀚,王雁鹏,黎世勇,孙鹏,张恒华,骆宝童,张建宇,王帅俭,刘伟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。