基于梯度传输优化的数据分布式训练方法、系统及介质技术方案

技术编号:35611485 阅读:10 留言:0更新日期:2022-11-16 15:35
本发明专利技术公开了一种基于梯度传输优化的数据分布式训练方法、系统及介质,属于数据分布式计算领域,方法包括:各分机按照权重获取目标数据集后,分为训练集和测试集,通过标准算法模型对各分机进行训练;根据当前训练次数计算各分机的本地梯度,对每个分机的本地梯度进行压缩得到新梯度;主机根据各分机压缩后的新梯度计算所有分机的有效梯度的加权平均值得到主机的聚合梯度;各分机用聚合梯度更新权重项和偏置项参数并得到各分机的算法准确率,主机按权重对各分机对应的算法准确率进行加权平均,获得综合准确率;若不满足训练终止条件,则按照上述操作继续训练,若满足,则得到最优模型。通过本发明专利技术能有效的解决数据传输成本的问题,提高通讯效率。提高通讯效率。提高通讯效率。

【技术实现步骤摘要】
基于梯度传输优化的数据分布式训练方法、系统及介质


[0001]本专利技术属于数据分布式计算
,更具体地,涉及一种基于梯度传输优化的数据分布式训练方法、系统及介质。

技术介绍

[0002]在新一轮信息技术与制造业融合的趋势下,新时代的“工业革命”正席卷全球。在大数据、人工智能、工业互联网等新兴技术快速发展的背景下,工业数字化是未来发展的必然方向。
[0003]随着数字化浪潮在工业领域的渗透,数据已经成为工业领域新的“生产资料”。随着大量工业数据的不断产生,传统处理数据的方法因数据量级的改变正在经历着严峻的挑战。传统方法多用单台计算机或服务器作为处理中枢,当数据量巨大时往往不能达到较为良好的效果,因此为解决上述问题,以多机“合作”为基本思想的分布式系统开始逐渐广泛应用。
[0004]新技术的应用往往带来新的问题,首先,在分布式系统中,多台终端间需要通过网络进行数据传输,黑客极有可能在传输过程中窃取重要的数据,大大提升了安全性的防护难度。其次,分布式系统虽然可以调用多终端的算力同时运算,提升计算效率,但与此同时,由于大量数据通过网络传输将带来传输成本的增加,在极大规模的分布式情况下,数据传输所花费的时间和成本会大大降低分布式系统的性能。
[0005]因此,如何在保证计算效率的前提下同时提升数据的安全性和传输效率是亟需解决的问题。

技术实现思路

[0006]针对现有技术的以上缺陷或改进需求,本专利技术提出了一种基于梯度传输优化的数据分布式训练方法、系统及介质,可以有效地解决分布式系统中数据在处理、计算和传输中存在的相关问题,节约分布式计算时间,降低计算成本,提升数据与系统的安全性。
[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于梯度传输优化的数据分布式训练方法,包括:(1)采用神经网络模型作为标准算法模型并确定分机数量及各分机的权重,获取原始数据集并随机打乱原始数据集,每台分机按各自的权重从打乱后的原始数据集中获取相应比例的目标数据集;(2)各分机将获得的目标数据集按比例分为训练集和测试集,将所述标准算法模型应用于各分机;(3)记录训练次数,在当前训练次数为1时,各分机应用各自对应的训练集和初始权重项及偏置项参数计算本地梯度,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至主机;在当前训练次数大于1时,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至主机;
(4)主机根据各分机压缩后的新梯度计算所有分机的有效梯度的加权平均值得到主机的聚合梯度,并将聚合梯度传输至各分机;(5)各分机将收到的聚合梯度应用梯度下降算法更新本地标准算法模型的权重项和偏置项参数,并计算本地梯度,运用各分机对应的测试集测试各分机的算法准确率,各分机将各自的算法准确率传输至主机,主机按各分机权重对各分机对应的算法准确率进行加权平均,获得综合准确率;(6)若综合准确率小于期望准确率,且当前训练次数小于预设训练次数阈值,则返回执行步骤(3),若综合准确率不小于期望准确率,或者,当前训练次数等于预设训练次数阈值,则向各分机下达终止训练指令,主机加权平均各分机权重项和偏置项参数后,将其应用至标准算法模型得到最优标准算法模型。
[0008]在一些可选的实施方案中,步骤(1)中各分机权重的计算方法为:统计所有分机算力之和为总算力,按各分机算力占总算力的百分比确定各分机权重。
[0009]在一些可选的实施方案中,步骤(3)中,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度,包括:对每个分机计算的本地梯度采用带有误差反馈项的算法计算得到压缩后的新梯度。
[0010]在一些可选的实施方案中,所述对每个分机计算的本地梯度采用带有误差反馈项的算法计算得到压缩后的新梯度,包括:各分机使用各自对应的本地梯度计算经过误差反馈处理后的梯度,其中,,为标准算法模型的学习率,t为训练次数,为第i台分机在第t

1次训练中产生的误差,为第i台分机在第t次训练中的本地梯度,为第i台分机在第t次训练中经过误差反馈处理后的梯度;由运用算法对经过误差反馈处理后的梯度进行压缩得到压缩后的新梯度,为第i台分机在第t次训练中经过压缩后的新梯度;由得到第i台分机在第t次训练中产生的误差。
[0011]在一些可选的实施方案中,所述运用算法对经过误差反馈处理后的梯度进行压缩得到压缩后的新梯度,包括:取出经过误差反馈处理后的梯度中权重项梯度和偏置项梯度;确定第1梯度压缩值,将每层权重项梯度中绝对值按降序排列在前的数据进行第一次保留,其他数据设置为0;确定第2梯度压缩值,对第一次保留的权重项梯度,将每层权
重项梯度中非零值的随机进行第二次保留,将其他数据设置为0;将第二次保留的权重项梯度和未经处理的偏置项梯度按原有顺序结合形成压缩后的新梯度。
[0012]在一些可选的实施方案中,步骤(4)包括:主机将第t次训练中各分机传来的新梯度进行汇总,由将各分机的有效梯度进行加权平均得到第t次训练主机的聚合梯度,其中,n为分机数量,为第i台分机的权重,有效梯度为梯度值不为0的值。
[0013]在一些可选的实施方案中,由得到第t次训练的综合准确率,其中,为第i台分机在第t次训练中的算法准确率。
[0014]在一些可选的实施方案中,在综合准确率不小于期望准确率,或者,当前训练次数等于预设训练次数阈值时,向各分机下达终止训练指令,得到最后一次训练的聚合梯度,将此梯度传输给分机以更新各自的权重项和偏置项参数,各分机将权重项和偏置项参数传输给主机,主机对权重项和偏置项参数进行加权平均后与标准算法模型组合成为最优标准算法模型。
[0015]按照本专利技术的另一方面,提供了一种基于梯度传输优化的数据分布式训练系统,包括:主机和若干个分机;所述主机,用于采用神经网络模型作为标准算法模型并确定分机数量及各分机的权重,获取原始数据集并随机打乱原始数据集;每个所述分机,用于按各自的权重从打乱后的原始数据集中获取相应比例的目标数据集,将获得的目标数据集按比例分为训练集和测试集,并运用标准算法模型进行训练;每个所述分机,还用于记录训练次数,在当前训练次数为1时,应用各自对应的训练集和初始权重项及偏置项参数计算本地梯度,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至主机;在当前训练次数大于1时,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至所述主机;所述主机,用于根据各所述分机压缩后的新梯度计算所有分机的有效梯度的加权平均值得到主机的聚合梯度,并将聚合梯度传输至各所述分机;每个所述分机,用于将收到的聚合梯度应用梯度下降算法更新本地标准算法模型的权重项和偏置项参数,并计算本地梯度,运用对应的测试集测试算法准确率,将各自的算法准确率传输至所述主机;所述主机,用于按各分机权重对各分机对应的算法准确率进行加权平均,获得综合准确率,若综合准确率小于期望准确率,且当前训练次数小于预设训练次数阈值,则返回执行压缩梯度的操作,直至综合准确率不小于期望准确率,或者,当前训练次数等于预设训练次数阈值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于梯度传输优化的数据分布式训练方法,其特征在于,包括:(1)采用神经网络模型作为标准算法模型并确定分机数量及各分机的权重,获取原始数据集并随机打乱原始数据集,每台分机按各自的权重从打乱后的原始数据集中获取相应比例的目标数据集;(2)各分机将获得的目标数据集按比例分为训练集和测试集,将所述标准算法模型应用于各分机;(3)记录训练次数,在当前训练次数为1时,各分机应用各自对应的训练集和初始权重项及偏置项参数计算本地梯度,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至主机;在当前训练次数大于1时,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度并传输至主机;(4)主机根据各分机压缩后的新梯度计算所有分机的有效梯度的加权平均值得到主机的聚合梯度,并将聚合梯度传输至各分机;(5)各分机将收到的聚合梯度应用梯度下降算法更新本地标准算法模型的权重项和偏置项参数,并计算本地梯度,运用各分机对应的测试集测试各分机的算法准确率,各分机将各自的算法准确率传输至主机,主机按各分机权重对各分机对应的算法准确率进行加权平均,获得综合准确率;(6)若综合准确率小于期望准确率,且当前训练次数小于预设训练次数阈值,则返回执行步骤(3),若综合准确率不小于期望准确率,或者,当前训练次数等于预设训练次数阈值,则向各分机下达终止训练指令,主机加权平均各分机权重项和偏置项参数后,应用至标准算法模型得到最优标准算法模型。2.根据权利要求1所述的方法,其特征在于,步骤(1)中各分机权重的计算方法为:统计所有分机算力之和为总算力,按各分机算力占总算力的百分比确定各分机权重。3.根据权利要求1或2所述的方法,其特征在于,步骤(3)中,对每个分机计算的本地梯度进行压缩得到压缩后的新梯度,包括:对每个分机计算的本地梯度采用带有误差反馈项的算法计算得到压缩后的新梯度。4.根据权利要求3所述的方法,其特征在于,所述对每个分机计算的本地梯度采用带有误差反馈项的算法计算得到压缩后的新梯度,包括:各分机使用各自对应的本地梯度计算经过误差反馈处理后的梯度,其中,,为标准算法模型的学习率,t为训练次数,为第i台分机在第t

1次训练中产生的误差,为第i台分机在第t次训练中的本地梯度,为第i台分机在第t次训练中经过误差反馈处理后的梯度;由运用算法对经过误差反馈处理后的梯度进行压缩得到压缩后的新梯度,为第i台分机在第t次训练中经过压缩后的新梯度;由得到第i台分机在第t次训练中产生的误差。
5.根据权利要求4所述的方法,其特征在于,所述运用算法对经过误差反馈处理后的梯度进行压缩得到压缩后的新梯度,包括:取出经过误差反馈处理后的梯度中权重项梯度和偏置项梯度;确定第1梯度压缩值,将每层权重项梯度中绝对值按降序排列...

【专利技术属性】
技术研发人员:徐徐徐鹏飞杨世飞孙磊邹小勇刘宗斌
申请(专利权)人:南京凯奥思数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1