The present application discloses a data transmission method and system, and an electronic device, wherein the methods include determining the first data that any node in a distributed system is to be sent to at least one other node to update the depth learning model trained by the distributed system; at least part of the first data is added to the data. Row sparse processing; sending at least one part of the first data after sparse processing to the at least one other node. The implementation of the invention can substantially reduce network communication traffic without shortening the communication frequency, and shorten the time for deep learning and training.
【技术实现步骤摘要】
数据传输方法和系统、电子设备
本申请涉及电数字数据处理领域,尤其涉及数据传输方法和系统、电子设备。
技术介绍
随着大数据时代的到来,深度学习得到了广泛的应用,包括图像识别、推荐系统以及自然语言处理等。深度学习训练系统是一种通过训练输入数据获取深度学习模型的计算系统。在工业环境中,为了能够提供高质量的深度学习模型,深度学习训练系统需要处理大量训练数据,如:斯坦福大学计算机视觉实验室开放的ImageNet数据集包含了1400多万张高精度的图片。然而,单节点系统由于其计算能力和内存限制,往往耗时数周甚至数月才能完成运算。在这种情况下,分布式深度学习训练系统在工业界和学术界得到了广泛的关注。典型的分布式深度学习训练系统通常利用分布式计算框架(如,MPI,Spark,参数服务器)运行梯度下降算法(如并行随机梯度下降算法)。一个完整的深度学习训练过程可以包括以下步骤:1、计算节点拉取一批训练数据作为输入,为深度学习模型参数(所述参数如构建深度学习模型的矩阵变量)计算梯度(所述梯度如用于更新深度学习模型参数的矩阵变量);2、分布式深度学习系统通过网络聚集并累加所有计算节点产生的梯度值,可以通过MPI的MPI_Reduce函数,Spark中的ReduceByKey接口,和参数服务器中的推送操作实现此子步骤;分布式深度学习系统利用累加的梯度值更新模型参数;4、分布式深度学习系统将更新后的模型参数通过网络广播到所有的计算节点上,可以通过MPI的MPI_Broadcast函数,Spark中的Broadcast接口,和参数服务器中的拉取操作实现此子步骤;5、重复执行子步骤1到4, ...
【技术保护点】
一种数据传输方法,其特征在于,包括:确定分布式系统中任一节点向至少一其他节点待发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据;对所述第一数据中的至少部分进行稀疏处理;向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。
【技术特征摘要】
1.一种数据传输方法,其特征在于,包括:确定分布式系统中任一节点向至少一其他节点待发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第一数据;对所述第一数据中的至少部分进行稀疏处理;向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据。2.根据权利要求1所述的方法,其特征在于,对所述第一数据中的至少部分进行稀疏处理,包括:将所述第一数据中的至少部分分别与给定过滤阈值进行比较,并在所述第一数据进行比较的部分中滤除小于所述过滤阈值的部分,其中,所述过滤阈值随所述深度学习模型的训练迭代次数的增加而减小。3.根据权利要求1或2所述的方法,其特征在于,根据预定策略对所述第一数据中的至少部分进行稀疏处理之前,还包括:随机确定所述第一数据的部分;对确定的所述第一数据的部分进行稀疏处理。4.根据权利要求1-3任一所述的方法,其特征在于,所述向所述至少一其他节点发送至少部分进行稀疏处理后的第一数据,包括:压缩至少部分进行稀疏处理后的第一数据;向所述至少一其他节点发送压缩后的第一数据。5.根据权利要求1-4任一所述的方法,其特征在于,还包括:获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据;至少根据所述第二数据对所述节点的所述深度学习模型的参数进行更新。6.根据权利要求5所述的方法,其特征在于,获取所述至少一其他节点发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据,包括:接收并解压缩所述至少一其他节点压缩后发送的用于对所述分布式系统训练的深度学习模型进行参数更新的第二数据。7.根据权利要求1-6任一所述...
【专利技术属性】
技术研发人员:朱元昊,颜深根,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。