当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于模型分割和资源分配的联邦学习训练方法及系统技术方案

技术编号:34618468 阅读:43 留言:0更新日期:2022-08-20 09:25
本发明专利技术公开了一种基于模型分割和资源分配的联邦学习训练方法及系统。所述方法面向在资源受限且异构的边缘环境中执行的联邦学习训练任务,将待训练模型自适应划分为两部分,将其中一部分模型的训练任务从工作节点卸载到主节点,同时结合对带宽资源和主节点计算资源的动态调整,极大地减少了联邦学习训练过程中的通信开销并且有效平衡了异构工作节点的完成时间,从而显著提升了联邦学习的训练速度。度。度。

【技术实现步骤摘要】
一种基于模型分割和资源分配的联邦学习训练方法及系统


[0001]本专利技术属于联邦学习与边缘计算领域,具体涉及一种基于模型分割和资源分配的联邦学习训练方法及系统。

技术介绍

[0002]面向深度神经网络协同训练的联邦学习框架旨在充分利用边缘环境中丰富的计算通信资源,通过多个智能终端协作式训练高精度机器学习模型。在面向边缘计算环境的联邦学习框架中,智能终端基于对本地训练数据的计算对当前全局模型进行更新,由边缘服务器作为协同节点对中间结果聚合并同步模型参数,通过多次迭代训练达到模型的预期精确度。联邦学习具有易于分布式协作、边缘数据就近处理、用户隐私保护等突出优点,完美契合边缘计算的核心理念,近年来受到学术界和工业界的广泛关注。
[0003]然而,随着边缘智能应用场景日趋复杂,联邦学习中深度神经网络模型所涉参数规模快速上升,例如,在高精度图像识别、自然语言处理等典型应用场景中,其参数规模达到数百万甚至上亿的规模,加之终端设备网络环境动态多变且通信性能受限,难以满足联邦学习中间结果聚合与模型参数同步的通信需求,导致时间开销加剧,并成为制约边缘环境下联邦学习训练速度的关键因素。此外,在资源异构的边缘环境中,负责模型训练的终端设备计算能力和通信能力不同,完成相同计算量和通信量的任务所花费的时间也具有显著性差异。在基于批量同步并行的模型同步方法下,资源性能好的终端设备需要等待资源性能差的终端设备完成后执行模型聚合,因此联邦学习完成一次全局模型更新的时间取决于性能最差的参与节点,这不仅导致了严重的资源利用率不足,而且进一步增加了模型训练的时间开销。
[0004]现有的解决方法都不能很好地同时应对上述的两个问题。基于数据压缩的方法虽然能够降低通信量,但带宽受限且高度动态的终端设备仍将面临巨大的通信开销,且压缩无法解除资源异构对联邦学习并行能力的限制。基于异步并行的模型同步机制在一定程度上缓解终端设备资源异构对联邦学习训练效率的影响,但是训练过程中仍然普遍存在本地更新的陈旧性问题,导致训练收敛速度下降。此外,上述两类方法都会对训练完成的模型精度产生一定的影响。
[0005]因此,有必要提出一种不仅可以降低通信开销,而且能够有效提高异构设备训练过程中的并行协同能力,同时不影响模型精度的联邦学习训练加速方法。

技术实现思路

[0006]针对于上述现有技术的不足,本专利技术的目的在于提供一种基于模型分割和资源分配的联邦学习训练方法,能够在有效降低联邦学习通信开销的同时,平衡异构边缘设备间的训练速度,从而在不影响模型精度的前提下大幅提高联邦学习的训练速度。
[0007]本专利技术还提供相应的基于模型分割和资源分配的联邦学习训练系统。
[0008]为了达到上述专利技术目的,本专利技术采用以下技术方案:
[0009]第一方面,一种基于模型分割和资源分配的联邦学习训练方法,包括以下步骤:
[0010]主节点收集工作节点的资源信息,包括计算能力和无线信号传输功率;
[0011]主节点根据待训练模型的配置计算模型的参数量、模型中间层的输出数据量以及训练所需的计算量;
[0012]主节点确定模型分割策略和资源分配策略,包括:初始化模型分割策略和资源分配策略,根据模型分割策略和资源分配策略预估一轮模型训练的全局完成时间,根据当前系统资源的状态选择最优的模型分割策略,根据当前的模型分割策略选择最优的资源分配策略,重复以上操作直至全局完成时间减少量的精度小于预设精度时,完成模型分割策略和资源分配策略的确定,其中模型分割策略指定工作节点和主节点分别负责的计算量,资源分配策略指定分配给工作节点的带宽和分配给工作节点的主节点计算资源;
[0013]主节点按照模型分割策略将每个工作节点的模型进行分割,并按照资源分配策略调整分配给每个工作节点的带宽和主节点计算资源;
[0014]工作节点和主节点协同对分割后的模型进行训练。
[0015]进一步地,所述根据待训练模型的配置计算模型的参数量、模型中间层的输出数据量以及训练所需的计算量包括:
[0016]根据模型结构和类型计算每一层模型的参数量;
[0017]根据训练数据的尺寸和模型的结构计算模型每一层的输入和输出尺寸;
[0018]根据模型每一层的输入和输出尺寸以及该层的类型计算每一层模型完成一次训练所需要的浮点操作数,一次完整训练所需的计算量即为所有层所需浮点操作数的总和。
[0019]进一步地,所述类型包括卷积层、池化层、全连接层。
[0020]进一步地,所述主节点初始化模型分割策略和资源分配策略包括:
[0021]将无线带宽资源平均分配给所有工作节点;
[0022]将主节点可用的计算资源平均分配给所有工作节点;
[0023]将所有工作节点的模型分割点设置在最后一层,即初始时由工作节点完成所有的训练任务。
[0024]进一步地,所述模型分割策略将模型分割为两部分,第一部分模型从第一层到分割层,包括分割层;第二部分模型从分割层到最后一层,不包括分割层;所述工作节点的计算量为第一部分模型完成前向传播和后向传播所需的计算量,所述主节点的计算量为第二部分模型完成前向传播和后向传播所需的计算量。
[0025]进一步地,所述根据模型分割策略和资源分配策略预估一轮模型训练的全局完成时间包括:
[0026]根据分割策略确定工作节点和主节点间的通信量,训练过程中工作节点与主节点间的数据传输操作包括对第一部分模型的两次传输、工作节点向主节点传输分割层的输出结果、主节点向工作节点传输分割层的梯度,上述传输数据的总和即为工作节点和主节点间的通信量;
[0027]通过带宽和无线传输功率计算出每个工作节点与主节点的数据传输率;
[0028]根据工作节点的计算量和计算能力预估工作节点的计算时间;
[0029]根据主节点的计算量和分配给工作节点的主节点计算资源预估主节点计算时间;
[0030]根据工作节点与主节点的通信量和数据传输率预估通信时间;
[0031]将工作节点计算时间、主节点计算时间、通信时间相加得到预估的该工作节点的完成时间;
[0032]预估所有工作节点的完成时间,其中最长的完成时间即为预估的全局完成时间。
[0033]进一步地,所述根据当前系统资源的状态选择最优的模型分割策略包括:
[0034]在不改变资源分配策略的前提下,对于一个工作节点,从第一层模型开始依次选择每一层模型作为分割层,并预估此时该工作节点的完成时间;
[0035]确定使得完成时间最小的分割层为该工作节点最优的分割层;
[0036]对所有工作节点执行上述操作,最终得到的最优分割层的集合即为最优的模型分割策略。
[0037]进一步地,所述根据当前的模型分割策略选择最优的分配策略包括:
[0038]在不改变模型分割策略的前提下,主节点构造线性规划问题,其中待优化变量为全局完成时间,决策变量为带宽分配策略和主节点计算资源分配策略;
...

【技术保护点】

【技术特征摘要】
1.一种基于模型分割和资源分配的联邦学习训练方法,其特征在于,所述方法包括以下步骤:主节点收集工作节点的资源信息,包括计算能力和无线信号传输功率;主节点根据待训练模型的配置计算模型的参数量、模型中间层的输出数据量以及训练所需的计算量;主节点确定模型分割策略和资源分配策略,包括:初始化模型分割策略和资源分配策略,根据模型分割策略和资源分配策略预估一轮模型训练的全局完成时间,根据当前系统资源的状态选择最优的模型分割策略,根据当前的模型分割策略选择最优的资源分配策略,重复以上操作直至全局完成时间减少量的精度小于预设精度时,完成模型分割策略和资源分配策略的确定,其中模型分割策略指定工作节点和主节点分别负责的计算量,资源分配策略指定分配给工作节点的带宽和分配给工作节点的主节点计算资源;主节点按照模型分割策略将每个工作节点的模型进行分割,并按照资源分配策略调整分配给每个工作节点的带宽和主节点计算资源;工作节点和主节点协同对分割后的模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据待训练模型的配置计算模型的参数量、模型中间层的输出数据量以及训练所需的计算量包括:根据模型结构和类型计算每一层模型的参数量;根据训练数据的尺寸和模型的结构计算模型每一层的输入和输出尺寸;根据模型每一层的输入和输出尺寸以及该层的类型计算每一层模型完成一次训练所需要的浮点操作数,一次完整训练所需的计算量即为所有层所需浮点操作数的总和。3.根据权利要求2所述的方法,其特征在于,所述类型包括卷积层、池化层、全连接层。4.根据权利要求1所述的方法,其特征在于,所述主节点初始化模型分割策略和资源分配策略包括:将无线带宽资源平均分配给所有工作节点;将主节点可用的计算资源平均分配给所有工作节点;将所有工作节点的模型分割点设置在最后一层,即初始时由工作节点完成所有的训练任务。5.根据权利要求1所述的方法,其特征在于,所述模型分割策略将模型分割为两部分,第一部分模型从第一层到分割层,包括分割层;第二部分模型从分割层到最后一层,不包括分割层;所述工作节点的计算量为第一部分模型完成前向传播和后向传播所需的计算量,所述主节点的计算量为第二部分模型完成前向传播和后向传播所需的计算量。6.根据权利要求5所述的方法,其特征在于,所述根据模型分割策略和资源分配策略预估一轮模型训练的全局完成时间包括:根据分割策略确定工作节点和主节点间的通信量,训练过程中工作节点与主节点间的数据传输操作包括对第一部分模型的两次传输、工作节点向主节点传输分割层的输出结果、主节点向工作节点传输分割层的梯度,上...

【专利技术属性】
技术研发人员:陈晨曦叶保留王楚豫陆桑璐
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1