一种面向在网计算集合通信的丢包重传方法技术

技术编号:42060252 阅读:18 留言:0更新日期:2024-07-19 16:45
本发明专利技术公开了一种面向在网计算集合通信的丢包重传方法,包括确定交换机端及节点,并设置节点数量及重传相关资源的节点表;交换机端根据重传相关资源的节点表判断是否丢包,并根据判断结果发送NACK数据包;根据上一步骤中判断结果的丢包情况,计算节点判断上行丢包或下行丢包,再执行相应的重传数据及发送NACK数据包。本发明专利技术通过基于丢包检测和重传机制,能够有效地识别和处理通信过程中的丢包事件。当检测到数据丢包时,该算法会自动触发重传操作,以确保丢失的数据能够被恢复并确保通信的可靠性。

【技术实现步骤摘要】

本专利技术涉及网络信息,特别涉及一种面向在网计算集合通信的丢包重传方法


技术介绍

1、随着深度学习的发展,神经网络的规模日趋庞大,而面对越来越多的超大规模神经网络的训练时,往往需要多台机器以进行分布式训练。目前常见的分布式训练方式是数据并行。在数据并行中集合通信操作在并行计算中起着关键作用。这些集合通信通常用于在多个计算节点之间协调和整合数据以获得全局结果。例如"allreduce"上行通信是在分布式计算中的一种通信操作,通常用于将计算节点中的局部计算结果汇总到全局结果。上行通信是指将局部计算结果从每个计算节点发送到集合操作的中央节点,以便进行全局数据聚合。在深度学习中,这通常涉及到将局部梯度从各个计算节点传输到集合节点,以进行全局梯度的计算和模型参数的更新。"allreduce"下行通信是分布式计算中的一种通信操作,通常用于将集合操作的全局结果从中央节点传播回每个计算节点。这是"allreduce"操作的第二个阶段,用于将全局聚合的结果分发给各个计算节点,以便它们可以更新其本地状态或模型参数。

2、switchml是目前常用的一种用于分布式本文档来自技高网...

【技术保护点】

1.一种面向在网计算集合通信的丢包重传方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S1中具体步骤包括:

3.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S2中具体步骤包括:

4.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S3中具体步骤包括:

【技术特征摘要】

1.一种面向在网计算集合通信的丢包重传方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤s1中具体步骤包括:

3.根据权...

【专利技术属性】
技术研发人员:谭小彬袁莘智沙沫凌志吴剑松姜晓枫杨坚王伟锋朱仕银
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1