针对分布式学习的通信压缩方法以及相关设备技术

技术编号:37429037 阅读:6 留言:0更新日期:2023-04-30 09:49
本申请实施例公开了针对分布式学习的通信压缩方法以及相关设备,用于提升通信效率。本申请实施例方法包括:将目标神经网络中每层的参数划分为至少一个备选参数块,其中每层对应的多个备选参数块中每个备选参数块包含的备选参数对应的相对位置索引相同;从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块;基于每层对应的目标参数块,确定每层对应的待同步参数块,其中待同步参数块与目标参数块一一对应,每层对应的待同步参数块的第一范数的期望值、与所述每层对应的备选参数块的第一范数的期望值相同;将每层对应的待同步参数块以及每层对应的位置索引发送至聚合装置。索引发送至聚合装置。索引发送至聚合装置。

【技术实现步骤摘要】
针对分布式学习的通信压缩方法以及相关设备


[0001]本申请实施例涉及分布式学习领域,尤其涉及针对分布式学习的通信压缩方法以及相关设备。

技术介绍

[0002]目前主流的联邦学习通信压缩技术主要采用参数稀疏化、量化、索引编码等压缩技术来降低模型传输过程中的通信开销。稀疏化用于在整个模型中选出一部分变化较大的数据作为待传输的备选参数(浮点数)。量化用于对这些备选参数进行更少位数的表示,从而减少浮点数的通信开销。索引编码用于进一步压缩备选参数位置信息所需要的通信开销。
[0003]经过稀疏化后的待同步参数受到模型量化技术和位置编码算法的处理之后,真正参与联邦学习训练的参数值的可压缩性很大(约16~32倍),然而,用于标记具体的待同步参数的位置索引的可压缩性相对较小(约2~3倍)。
[0004]这导致每轮训练传输给聚合设备的数据(参数值以及对应的位置索引)中,参数值与位置索引所占的通信开销往往不够合理。尽管二者都通过了进一步的压缩操作,但是最终大部分的通信开销用于传输对模型训练无用的位置索引,因此传输效率相对低下。

技术实现思路

[0005]本申请实施例提供了针对分布式学习的通信压缩方法以及相关设备,用于提升数据传输效率。
[0006]本申请实施例第一方面提供一种针对分布式学习的通信压缩方法,包括:
[0007]将目标神经网络中每层的参数划分为至少一个备选参数块,其中每层对应的多个备选参数块中每个备选参数块包含的备选参数对应的相对位置索引相同;
[0008]从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块;
[0009]基于每层对应的目标参数块,确定每层对应的待同步参数块,其中待同步参数块与目标参数块一一对应,每层对应的待同步参数块的第一范数的期望值、与所述每层对应的备选参数块的第一范数的期望值相同;
[0010]将每层对应的待同步参数块以及每层对应的位置索引发送至聚合装置。
[0011]在一种具体实现方式中,所述将目标神经网络中每层的参数划分为至少一个备选参数块,包括:
[0012]若所述目标神经网络中的任一层包含四个维度,则从通道维度将所述任一层的参数划分为N个备选参数块,其中N为所述任一层的通道数量与所述任一层对应的下一层的通道数量的乘积;
[0013]若所述目标神经网络中的任一层包含两个维度,则从所述两个维度中的任一维度将所述任一层的参数划分为N个备选参数块,其中N为所述任一维度的数量;
[0014]若所述目标神经网络中的任一层包含一个维度,则将所述任一层的参数划分为N个备选参数块,其中N为所述任一层的参数数量。
[0015]在一种具体实现方式中,所述从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块,包括:
[0016]根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应;
[0017]基于第一概率以及预设条件,从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块;
[0018]所述基于每层对应的目标参数块,确定每层对应的待同步参数块,包括:
[0019]根据第一缩放公式以及每层对应的目标参数块,确定每层对应的待同步参数块。
[0020]在一种具体实现方式中,所述从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块,包括:
[0021]根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应;
[0022]基于所述第一概率以及预设条件,从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的一筛参数块;
[0023]根据第二概率公式,计算每层对应的每个一筛参数块的第二概率;
[0024]基于所述第二概率以及所述预设条件,从每层对应的多个一筛参数块中选择至少一个参数块,确定为每层对应的目标参数块;
[0025]所述基于每层对应的目标参数块,确定每层对应的待同步参数块,包括:
[0026]根据第二缩放公式以及每层对应的目标参数块,确定每层对应的待同步参数块。
[0027]在一种具体实现方式中,所述根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应,包括:
[0028]根据以下公式计算每层对应的每个备选参数块的第一概率:
[0029][0030]其中,表示所述目标神经网络的任一层对应的第i个备选参数块的第一概率,t
i
表示所述任一层对应的第i个备选参数块,T表示所述任一层对应的每个备选参数块组成的集合。
[0031]在一种具体实现方式中,所述根据第二概率公式,计算每层对应的每个一筛参数块的第二概率,包括:
[0032]根据以下公式计算每层对应的每个一筛参数块的第二概率:
[0033][0034]其中,表示所述目标神经网络的任一层对应的第j个一筛参数块的第二概率,表示所述任一层对应的第j个一筛参数块,T1表示所述任一层对应的每个一筛参数块组成的集合。
[0035]在一种具体实现方式中,所述根据第二缩放公式以及每层对应的目标参数块,确定每层对应的待同步参数块,包括:
[0036]根据以下公式计算每层对应的目标参数块中,每个目标参数对应的目标量级:
[0037][0038]其中,表示所述目标神经网络的任一层对应的第k个目标参数块对应的目标量级,T1表示所述任一层对应的一筛参数块组成的集合,T

表示所述任一层对应的目标参数块组成的集合,m
k
表示所述任一层对应的第k个目标参数块包含的目标参数的数量;
[0039]根据预设量化条件,确定每个目标参数对应的保留符号值;
[0040]将所述每个目标参数对应的目标量级以及所述每个目标参数对应的保留符号值的积,确定为所述每个目标参数对应的待同步参数;
[0041]按照对应的目标参数在对应的目标参数块中的位置组装每个待同步参数,得到每个目标参数块对应的待同步参数块。
[0042]在一种具体实现方式中,所述基于每层对应的目标参数块,确定每层对应的待同步参数块,包括:
[0043]将每层对应的参数块数量除以所述每层对应的每个目标参数块的商,确定为所述每层对应的每个目标参数块对应的目标量级;
[0044]将每个目标参数以及所述每个目标参数对应的目标量级的积,确定为所述每个目标参数对应的待同步参数;
[0045]按照对应的目标参数在对应的目标参数块中的位置组装每个待同步参数,得到每个目标参数块对应的待同步参数块。
[0046]本申请实施例第二方面提供一种训练装置,包括:
[0047]划分单元,用于将目标神经网络中每层的参数划分为至少一个备选参数块,其中每层对应的多个备选参数块中每个备选参数块包含的备选参数对应的相对位置索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对分布式学习的通信压缩方法,其特征在于,应用于训练装置,包括:将目标神经网络中每层的参数划分为至少一个备选参数块,其中每层对应的多个备选参数块中每个备选参数块包含的备选参数对应的相对位置索引相同;从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块;基于每层对应的目标参数块,确定每层对应的待同步参数块,其中待同步参数块与目标参数块一一对应,每层对应的待同步参数块的第一范数的期望值、与所述每层对应的备选参数块的第一范数的期望值相同;将每层对应的待同步参数块以及每层对应的位置索引发送至聚合装置。2.根据权利要求1所述的方法,其特征在于,所述将目标神经网络中每层的参数划分为至少一个备选参数块,包括:若所述目标神经网络中的任一层包含四个维度,则从通道维度将所述任一层的参数划分为N个备选参数块,其中N为所述任一层的通道数量与所述任一层对应的下一层的通道数量的乘积;若所述目标神经网络中的任一层包含两个维度,则从所述两个维度中的任一维度将所述任一层的参数划分为N个备选参数块,其中N为所述任一维度的数量;若所述目标神经网络中的任一层包含一个维度,则将所述任一层的参数划分为N个备选参数块,其中N为所述任一层的参数数量。3.根据权利要求1所述的方法,其特征在于,所述从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块,包括:根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应;基于第一概率以及预设条件,从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块;所述基于每层对应的目标参数块,确定每层对应的待同步参数块,包括:根据第一缩放公式以及每层对应的目标参数块,确定每层对应的待同步参数块。4.根据权利要求1所述的方法,其特征在于,所述从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的目标参数块,包括:根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应;基于所述第一概率以及预设条件,从每层对应的多个备选参数块中选择至少一个参数块,确定为每层对应的一筛参数块;根据第二概率公式,计算每层对应的每个一筛参数块的第二概率;基于所述第二概率以及所述预设条件,从每层对应的多个一筛参数块中选择至少一个参数块,确定为每层对应的目标参数块;所述基于每层对应的目标参数块,确定每层对应的待同步参数块,包括:根据第二缩放公式以及每层对应的目标参数块,确定每层对应的待同步参数块。5.根据权利要求4所述的方法,其特征在于,所述根据第一概率公式,计算每层对应的每个备选参数块的第一概率,所述第一概率公式与所述第一范数对应,包括:
根据以下公式计算每层对应的每个备选参数块的第一概率:其中,表示所述目标神...

【专利技术属性】
技术研发人员:夏文吴东磊杨潍豪李诗逸
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1