一种训练数据的传输方法、装置、设备及介质制造方法及图纸

技术编号：24208920 阅读：41 留言：0更新日期：2020-05-20 15:56

本发明专利技术公开了一种训练数据的传输方法，包括：监测节点中用于反映当前训练情况的当前监测值，判断当前监测值是否大于预设值；如果是，将获得的当前训练数据压缩为预设类型的压缩数据；与目的节点建立通信，发送压缩数据至目的节点。计算完成后进行解压缩操作继续模型训练过程。由此可见，通过将当前训练数据压缩为预设类型的压缩数据，从而在保证模型训练精度的同时减少通信过程中传输的数据量；缓解了网络资源的压力，保证数据传输过程中的准确性和高效性。此外，本发明专利技术所提供的一种训练数据的传输装置、设备及存储介质与上述方法对应。

A transmission method, device, equipment and medium of training data

全部详细技术资料下载

【技术实现步骤摘要】
一种训练数据的传输方法、装置、设备及介质
本专利技术涉及通信
，特别是涉及一种训练数据的传输方法、装置、设备及介质。
技术介绍
目前，深度学习模型在各个领域均得到了广泛的应用，例如计算机视觉、推荐系统、自然语言处理等领域。为了使深度学习模型得到更好的训练结果，模型参数已达到10亿量级。针对这一情况，科研人员利用分布式计算框架将深度学习模型的训练过程分布到多个计算节点上，使其进行并行计算，然后在训练过程中建立通信以实现梯度数据在反向传播过程中一致。当前的分布式计算框架支持int32、float32和float16等数据类型进行计算。由于在云计算环境下，通常采用25Gb网络。现有技术中在传输训练数据时，为了缓解网络资源压力，保证训练数据的正常传输，通常选用浮点数占用的位数较小的float16类型的数据进行深度学习模型的训练，并将获得的float16类型的训练数据进行传输，从而降低传输过程中的通讯数据量，达到缓解网络资源压力的目的。但是，随着深度学习模型的层数的增加，参数量的规模越来越大，float16类型的数据在大规模的训练过程中也产生大量的训练数据，仍然会出现无法通信带宽称为模型训练瓶颈的情况，并未从根本上解决问题。
技术实现思路
本专利技术的目的是提供一种训练数据的传输方法、装置、设备及介质，通过将当前训练数据压缩为预设类型的压缩数据，从而在保证模型训练精度的同时减少通信过程中传输的数据量；缓解了网络资源的压力，保证数据传输过程中的准确性和高效性。为解决上述技术问题，...

【技术保护点】
1.一种训练数据的传输方法，其特征在于，包括：/n监测节点中用于反映当前训练情况的当前监测值，判断所述当前监测值是否大于预设值；/n如果是，将获得的当前训练数据压缩为预设类型的压缩数据；/n与目的节点建立通信，发送所述压缩数据至所述目的节点。/n

【技术特征摘要】
1.一种训练数据的传输方法，其特征在于，包括：
监测节点中用于反映当前训练情况的当前监测值，判断所述当前监测值是否大于预设值；
如果是，将获得的当前训练数据压缩为预设类型的压缩数据；
与目的节点建立通信，发送所述压缩数据至所述目的节点。

2.根据权利要求1所述的训练数据的传输方法，其特征在于，所述当前监测值具体为当前时间间隔或放入缓冲区的当前数据量。

3.根据权利要求1所述的训练数据的传输方法，其特征在于，所述将获得的当前训练数据压缩为预设类型的压缩数据具体为：
根据压缩算法，将获得的所述当前训练数据压缩为预设类型的压缩数据。

4.根据权利要求3所述的训练数据的传输方法，其特征在于，所述预设类型具体为int8数据类型。

5.根据权利要求3所述的训练数据的传输方法，其特征在于，还包括：
判断是否接收到其它节点发送的压缩数据；
如果是，根据与所述压缩算法对应的解压算法解压所述压缩数据。

6.根据权利要求1所述的训练数据的传输方法，其特征在于...

【专利技术属性】
技术研发人员：赵旭东，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人