【技术实现步骤摘要】
本专利技术涉及网络信息,特别涉及一种面向在网计算集合通信的丢包重传方法。
技术介绍
1、随着深度学习的发展,神经网络的规模日趋庞大,而面对越来越多的超大规模神经网络的训练时,往往需要多台机器以进行分布式训练。目前常见的分布式训练方式是数据并行。在数据并行中集合通信操作在并行计算中起着关键作用。这些集合通信通常用于在多个计算节点之间协调和整合数据以获得全局结果。例如"allreduce"上行通信是在分布式计算中的一种通信操作,通常用于将计算节点中的局部计算结果汇总到全局结果。上行通信是指将局部计算结果从每个计算节点发送到集合操作的中央节点,以便进行全局数据聚合。在深度学习中,这通常涉及到将局部梯度从各个计算节点传输到集合节点,以进行全局梯度的计算和模型参数的更新。"allreduce"下行通信是分布式计算中的一种通信操作,通常用于将集合操作的全局结果从中央节点传播回每个计算节点。这是"allreduce"操作的第二个阶段,用于将全局聚合的结果分发给各个计算节点,以便它们可以更新其本地状态或模型参数。
2、switchml是目前
...【技术保护点】
1.一种面向在网计算集合通信的丢包重传方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S1中具体步骤包括:
3.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S2中具体步骤包括:
4.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤S3中具体步骤包括:
【技术特征摘要】
1.一种面向在网计算集合通信的丢包重传方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种面向在网计算集合通信的丢包重传方法,其特征在于,所述步骤s1中具体步骤包括:
3.根据权...
【专利技术属性】
技术研发人员:谭小彬,袁莘智,沙沫,凌志,吴剑松,姜晓枫,杨坚,王伟锋,朱仕银,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。