用于共同训练模型的训练参与端的网络连接方法和装置制造方法及图纸

技术编号:25192775 阅读:123 留言:0更新日期:2020-08-07 21:19
本申请实施例公开了用于共同训练模型的训练参与端的网络连接方法和装置,其中,训练参与端采用主从模式。该方法的一具体实施方式包括:获取从节点的通信状态信息,其中,该通信状态信息用于指示节点所处于的通信连接阶段;获取目标从节点的通信状态信息作为目标通信状态信息,其中,该目标从节点包括与从节点对应的对等节点,该对等节点分属于该共同训练模型的不同训练参与端;响应于确定目标通信状态信息与从节点的通信状态信息不匹配,重置从节点所处于的通信连接阶段。该实施方式实现了尽可能地减少网络故障所带来的数据损失。

【技术实现步骤摘要】
用于共同训练模型的训练参与端的网络连接方法和装置
本申请实施例涉及计算机
,具体涉及用于共同训练模型的训练参与端的网络连接方法和装置。
技术介绍
随着人工智能技术的飞速发展,模型训练的规模越来越大,采用并行方式进行模型训练也越来越广泛。在并行设计中,主从(Master-Worker)模式常常被采用。其中,主节点(Master)通常负责接收和分配任务(例如训练任务),从节点(Worker)通常负责处理子任务。在多个训练参与端共同训练模型的过程中,不可避免地会存在各种故障,例如网络故障、训练器故障、参数服务器故障等。相关的方式通常是通过预先设置服务的恢复点,在出现故障时从以上恢复点进行数据恢复。
技术实现思路
本申请实施例提出了用于共同训练模型的训练参与端的网络连接方法和装置。第一方面,本申请实施例提供了一种用于共同训练模型的训练参与端的网络连接方法,训练参与端采用主从模式,该方法包括:获取从节点的通信状态信息,其中,通信状态信息用于指示节点所处于的通信连接阶段;获取目标从节点的通信状态信息作为目标通信状态信息,其中,目标从节点包括与从节点对应的对等(peer)节点,对等节点分属于共同训练模型的不同训练参与端;响应于确定目标通信状态信息与从节点的通信状态信息不匹配,重置从节点所处于的通信连接阶段。在一些实施例中,该方法还包括:响应于确定从节点所处于的通信连接阶段发生改变,生成用于指示从节点处于改变后的通信连接阶段的新通信状态信息。在一些实施例中,上述响应于确定目标通信状态与从节点的通信状态信息不匹配,重置从节点所处于的通信连接阶段,包括:响应于确定目标通信状态信息用于指示目标从节点处于通信连接阶段前的连接建立阶段且从节点的通信状态信息用于指示从节点处于通信连接阶段,重置从节点的通信连接阶段为通信连接阶段前的连接建立阶段。第二方面,本申请实施例提供了一种用于共同训练模型的训练参与端的网络连接装置,训练参与端采用主从模式,该装置包括:第一获取单元,被配置成获取从节点的通信状态信息,其中,通信状态信息用于指示节点所处于的通信连接阶段;第二获取单元,被配置成获取目标从节点的通信状态信息作为目标通信状态信息,其中,目标从节点包括与从节点对应的对等节点,对等节点分属于共同训练模型的不同训练参与端;重置单元,被配置成响应于确定目标通信状态信息与从节点的通信状态信息不匹配,重置从节点所处于的通信连接阶段。在一些实施例中,该装置还包括:生成单元,被配置成响应于确定从节点所处于的通信连接阶段发生改变,生成用于指示从节点处于改变后的通信连接阶段的新通信状态信息。在一些实施例中,上述重置单元进一步被配置成:响应于确定目标通信状态信息用于指示目标从节点处于通信连接阶段前的连接建立阶段且从节点的通信状态信息用于指示从节点处于通信连接阶段,重置从节点的通信连接阶段为通信连接阶段前的连接建立阶段。第三方面,本申请实施例提供了一种用于共同训练模型的训练参与端的网络连接系统,该系统包括:从节点,被配置成获取节点本地的通信状态信息,其中,通信状态信息用于指示节点所处于的通信连接阶段;获取目标从节点的通信状态信息作为目标通信状态信息,其中,目标从节点包括与从节点对应的对等节点,对等节点分属于共同训练模型的不同训练参与端;响应于确定目标通信状态信息与节点本地的通信状态信息不匹配,结束进程;响应于接收到从节点对应的主节点发送的指示重新启动的信息,将节点本地的通信连接阶段设置为预设阶段,以及更新节点本地的通信状态信息;主节点,被配置成响应于确定存在主动结束进程的从节点,向主动结束进程的从节点发送指示重新启动的信息。在一些实施例中,该装置还包括:参数服务器,被配置成响应于检测到运行故障,生成指示参数服务器故障的故障提示信息。上述主节点还被配置成:响应于检测到存在指示参数服务器故障的故障提示信息,向共同训练模型的训练参与端的主节点发送通信终止请求;响应于接收到通信终止请求对应的确认信息,断开通信终止请求对应的通信连接。在一些实施例中,上述通信终止请求还用于指示停止共同训练模型的训练进程。上述主节点还被配置成:响应于接收到通信终止请求对应的确认信息,从目标检查点处恢复共同训练模型的训练进程。第四方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第五方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于共同训练模型的训练参与端的网络连接方法和装置,训练参与端采用主从模式,该方法通过获取从节点的通信状态信息,其中,通信状态信息用于指示节点所处于的通信连接阶段;而后,获取目标从节点的通信状态信息作为目标通信状态信息,其中,目标从节点包括与从节点对应的对等节点,对等节点分属于共同训练模型的不同训练参与端;最后,响应于确定目标通信状态信息与从节点的通信状态信息不匹配,重置从节点所处于的通信连接阶段。从而实现了尽可能地减少网络故障所带来的数据损失。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于共同训练模型的训练参与端的网络连接方法的一个实施例的流程图;图3是根据本申请的实施例的用于共同训练模型的训练参与端的网络连接方法的一个应用场景的示意图;图4是根据本申请的用于共同训练模型的训练参与端的网络连接装置的一个实施例的流程图;图5是根据本申请的用于共同训练模型的训练参与端的网络连接系统的一个实施例中各个设备之间交互的时序图;图6是适于用来实现本申请的实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于共同训练模型的训练参与端的网络连接方法或用于共同训练模型的训练参与端的网络连接装置的示例性架构100。如图1所示,系统架构100可以包括服务器集群101、102和网络103。网络103用以在服务器集群101、102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器集群101、102可以是提供各种服务的服务器,例如在分布式或联邦学习框架下用于训练模型的服务器。服务器集群101中可以包括主节点1011和从节本文档来自技高网...

【技术保护点】
1.一种用于共同训练模型的训练参与端的网络连接方法,训练参与端采用主从模式,所述方法包括:/n获取从节点的通信状态信息,其中,所述通信状态信息用于指示节点所处于的通信连接阶段;/n获取目标从节点的通信状态信息作为目标通信状态信息,其中,所述目标从节点包括与所述从节点对应的对等节点,所述对等节点分属于所述共同训练模型的不同训练参与端;/n响应于确定所述目标通信状态信息与所述从节点的通信状态信息不匹配,重置所述从节点所处于的通信连接阶段。/n

【技术特征摘要】
1.一种用于共同训练模型的训练参与端的网络连接方法,训练参与端采用主从模式,所述方法包括:
获取从节点的通信状态信息,其中,所述通信状态信息用于指示节点所处于的通信连接阶段;
获取目标从节点的通信状态信息作为目标通信状态信息,其中,所述目标从节点包括与所述从节点对应的对等节点,所述对等节点分属于所述共同训练模型的不同训练参与端;
响应于确定所述目标通信状态信息与所述从节点的通信状态信息不匹配,重置所述从节点所处于的通信连接阶段。


2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述从节点所处于的通信连接阶段发生改变,生成用于指示所述从节点处于改变后的通信连接阶段的新通信状态信息。


3.根据权利要求1所述的方法,其中,所述响应于确定所述目标通信状态与所述从节点的通信状态信息不匹配,重置所述从节点所处于的通信连接阶段,包括:
响应于确定所述目标通信状态信息用于指示所述目标从节点处于通信连接阶段前的连接建立阶段且所述从节点的通信状态信息用于指示所述从节点处于通信连接阶段,重置所述从节点的通信连接阶段为通信连接阶段前的连接建立阶段。


4.一种用于共同训练模型的训练参与端的网络连接装置,训练参与端采用主从模式,所述装置包括:
第一获取单元,被配置成获取从节点的通信状态信息,其中,所述通信状态信息用于指示节点所处于的通信连接阶段;
第二获取单元,被配置成获取目标从节点的通信状态信息作为目标通信状态信息,其中,所述目标从节点包括与所述从节点对应的对等节点,所述对等节点分属于所述共同训练模型的不同训练参与端;
重置单元,被配置成响应于确定所述目标通信状态信息与所述从节点的通信状态信息不匹配,重置所述从节点所处于的通信连接阶段。


5.根据权利要求4所述的装置,其中,所述重置单元进一步被配置成:
响应于确定所述目标通信状态信息用于指示所述目标从节点处于通信连接阶段前的连接建立阶段且所述从节点的通信状态信息用于指...

【专利技术属性】
技术研发人员:李龙一佳陈程吴迪方晨廖晖赵鹏解浚源陈逸翔吴良超常龙刘小兵
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1