一种基于参数扩充的联合学习方法、装置及系统制造方法及图纸

技术编号:26971856 阅读:27 留言:0更新日期:2021-01-06 00:03
本发明专利技术涉及联合学习技术领域,特别涉及一种基于参数扩充的联合学习方法、装置及系统;所述方法包括在本地训练全局模型,记录本地训练过程中产生的梯度值;利用梯度值集合采用扩充法改进k匿名算法,扩充出参数集合;将这些参数集合发送给服务器,服务器将对接收到的参数集合进行单点聚合,求出每个参数集合中的平均值;将这些平均值采用加权平均求出新的参数;利用新的参数构建新的全局模型,测试所述新的全局模型是否满足停止迭代条件,若满足,则停止训练过程,否则服务器将全局模型发送至计算设备继续进行训练;在上述方案中,本发明专利技术可以解决联合学习过程中的重构攻击问题,增强参数的隐匿性,保护数据安全。

【技术实现步骤摘要】
一种基于参数扩充的联合学习方法、装置及系统
本专利技术涉及联合学习
,特别涉及一种基于参数扩充的联合学习方法、装置及系统。
技术介绍
近年来,机器学习已经成为图像处理、自然语言识别等技术的核心工具,并在图像识别、自动驾驶等领域取得了突破性的应用。机器学习算法的应用离不开可用的数据,大规模的数据收集能够提高机器学习应用的性能,但与此同时,数据集中包含的许多个人隐私信息会随着数据集的共享与应用而面临泄露的风险。比如在车联网领域,当前车联网采用以云计算为中心的网络架构,在车辆与云计算服务进行数据交互的过程中存在两个严重的问题:(1)数据隐私问题,汽车驾驶过程中的数据存在很多个人的隐私信息,如行驶轨迹等,将这些数据上传到云计算中心的过程会带来用户隐私泄露的风险;(2)资源消耗问题,车联网中的部分业务需要实时感知车辆状态和车辆周围的环境信息,所以车载传感器等设备需要实时的采集和记录这些数据,由此每秒可以产生1GB的数据,在将这些数据上传到云计算中心的过程中需要消耗大量的通信资源,这会导致有限的车联网资源进一步紧张。为解决上述问题,联合学习(FederatedLearning,FL)技术应运而生。联合学习采用独特的分布式计算框架,允许用户数据保留在本地进行训练的情况下,在中央服务器获得一个具有全局特征的数据模型,且此模型的模型精度与集中式训练模型的精度差异在一个可接受的范围内,因此,联合学习受到了广泛的研究和应用。FL是一种用于分布式机器学习技术,它能够有效的利用计算节点有限的计算和通信资源训练出最优的模型学习性能。FL的结构包括一个聚合节点和许多的计算节点。在计算节点上,原始数据被收集和存储在计算节点的存储单元中,一个嵌于计算节点的机器学习模型用于训练这些本地的数据,所以计算节点不需要将这些本地数据发送到聚合节点上。FL的聚合节点与计算节点之间只同步更新节点的机器学习模型参数,我们称为权重(Weight)。这不但能够减少节点与服务器间通信的数据量,还能保护用户数据的隐私(聚合节点接触不到用户数据)。FL的学习过程分为两个步骤,它们是本地更新(LocalUpdate)和全局聚合(GlobalAggregation)。在本地更新步骤中,各个计算节点基于本地数据集执行优化算法去调整本地学习模型权重,使模型的损失函数值最小。各个计算节点经过设置好的本地迭代次数之后,FL执行全局聚合步骤。所有的计算节点的权重被同步发送到聚合节点,经过聚合节点的加权平均处理后,一个更新全局模型权重被发送给所有的计算节点。FL的学习过程是本地更新和全局聚合的不断轮替。以图1为例,图1给出了基于传统联合学习方法的流程图;首先在云计算中心服务器中随机生成初始化模型参数,然后将该初始化模型的参数打包并广播下发。计算设备A接收广播的数据包,并采集相关数据生成本地数据集A,然后根据接收到的数据包重塑模型,并利用本地数据集A训练该模型。计算设备A利用数据集A训练模型生成新的本地模型A,然后提取模型A的参数数据集A,并将该数据集A上传给服务器节点。服务器节点在下发模型参数后,经过预定的等待时间,开始接收计算设备上传的参数数据集,并在随机接收到固定数量的参数数据集{A,B,…,N}之后停止,然后使用加权平均算法聚合所有参数数据集,生成新的参数,再通过重塑构建新的全局模型,测试新模型是否满足停止条件,如果满足,则停止训练过程,否则服务器将新模型参数打包并广播下发,计算设备继续对全局模型进行训练。但是近几年的研究表明,联合学习会受到重构攻击的威胁,即在计算节点和聚合节点进行数据交换的过程中,攻击者连续截获某个计算节点的模型参数后,或者聚合节点是诚实且好奇的,通过深度学习、生成对抗网络等技术可以模拟甚至是恢复该计算节点的私人数据。因此需要隐私保护技术来处理联合学习面临的重构攻击问题。为了解决重构攻击问题,当前大多数研究将差分隐私技术引入联合学习,差分隐私技术的基本思想是在数据中加入适当的校准噪声以消除敏感信息。差分隐私技术在一定程度上防止了用户数据的泄露,但是无法完全排除个人的身份,而且差分隐私技术在机器学习中是存在损耗的,在加入噪声后建立的模型将大大降低预测的准确性。还有一部分研究者使用基于加密的隐私保护技术,但对数据进行加密和解密的过程带来了巨大的计算开销,且部署过程非常复杂。综上所述,在不影响模型训练精度、并且不带来巨大的计算开销的前提下,如何在联合学习技术中解决重构攻击威胁是亟待解决的技术问题。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于参数扩充的联合学习方法、装置及系统,通过匿名化技术解决联合学习面临的重构攻击问题,经研究表明,基于数据匿名化的隐私保护技术在隐私保护度、算法复杂度、数据有效性和算法可扩展性方面相对均衡,使得隐私保护的计算开销和信息损失较小。在本专利技术的第一方面,本专利技术提出了一种基于参数扩充的联合学习方法,所述方法包括以下步骤:S1、服务器随机产生初始化模型参数,将所述初始化模型参数打包成数据包并广播下发;S2、计算设备接收广播的数据包,根据接收到的数据包构建出全局模型;S3、计算设备采集本地数据生成本地数据集,利用所述本地数据集训练所述全局模型,训练完成后产生本地模型,并记录本地训练迭代过程中所产生的梯度值;S4、利用梯度值所构建出的梯度值集合采用扩充法改进k匿名算法,扩充出参数集合;S5、计算设备将所述参数集合打包成数据包并上传至服务器;S6、服务器下发参数集合后,经过预设的等待时间后,接收计算设备上传的参数集合,并在接收到固定数量的参数集合后停止;S7、对接收到的参数集合进行单点聚合,求出每个参数集合中的平均值;将这些平均值采用加权平均求出新的参数;S8、利用新的参数构建新的全局模型,测试所述新的全局模型是否满足停止迭代条件,若满足,则停止训练过程,否则服务器将新的所述全局模型所对应的新的参数打包成数据包并广播下发返回步骤S2。在本专利技术的第二方面,本专利技术还提供了一种基于参数扩充的联合学习装置,所述装置包括模型参数产生模块、模型训练模块、参数存储模块、扩充参数模块、单点聚合模块、全局聚合模块、判断模块以及结果输出模块;所述模型参数产生模块用于随机产生初始化模型参数;所述模型训练模块根据初始化模型参数构建出全局模型,采用本地数据集进行训练,训练完成后得到本地模型;所述参数存储模块用于存储所述第一训练单元在本地训练迭代过程中的梯度值;所述扩充参数模块用于采用扩充法改进的k匿名算法对所述梯度值进行处理,并扩充出模型参数集合;所述单点聚合模块用于对从所述扩充参数模块接收到的每个参数集合进行单点聚合;所述全局聚合模块用于对单点聚合的参数进行加权求和,将加权求和后的参数进行全局聚合;所述判断模块用于判断全局聚合后的全局模型是否满足停止迭代条件,若满足,则跳转至结果输出模块,若不满足则跳转至所述模型训练模块;结果输出模块,用于输出满足停止迭代条件的全局模型。在上述联合学习装置的本文档来自技高网
...

【技术保护点】
1.一种基于参数扩充的联合学习方法,其特征在于,所述方法包括以下步骤:/nS1、服务器随机产生初始化模型参数,将所述初始化模型参数打包成数据包并广播下发;/nS2、计算设备接收广播的数据包,根据接收到的数据包构建出全局模型;/nS3、计算设备采集本地数据生成本地数据集,利用所述本地数据集训练所述全局模型,训练完成后产生本地模型,并记录本地训练迭代过程中所产生的梯度值;/nS4、利用梯度值所构建出的梯度值集合采用扩充法改进k匿名算法,扩充出参数集合;/nS5、计算设备将所述参数集合打包成数据包并上传至服务器;/nS6、服务器经过预设的等待时间后,接收计算设备上传的参数集合,并在接收到固定数量的参数集合后停止;/nS7、对接收到的参数集合进行单点聚合,求出每个参数集合中的平均值;将这些平均值采用加权平均求出新的参数;/nS8、利用新的参数构建新的全局模型,测试所述新的全局模型是否满足停止迭代条件,若满足,则停止训练过程,否则服务器将新的所述全局模型所对应的新的参数打包成数据包并广播下发返回步骤S2。/n

【技术特征摘要】
1.一种基于参数扩充的联合学习方法,其特征在于,所述方法包括以下步骤:
S1、服务器随机产生初始化模型参数,将所述初始化模型参数打包成数据包并广播下发;
S2、计算设备接收广播的数据包,根据接收到的数据包构建出全局模型;
S3、计算设备采集本地数据生成本地数据集,利用所述本地数据集训练所述全局模型,训练完成后产生本地模型,并记录本地训练迭代过程中所产生的梯度值;
S4、利用梯度值所构建出的梯度值集合采用扩充法改进k匿名算法,扩充出参数集合;
S5、计算设备将所述参数集合打包成数据包并上传至服务器;
S6、服务器经过预设的等待时间后,接收计算设备上传的参数集合,并在接收到固定数量的参数集合后停止;
S7、对接收到的参数集合进行单点聚合,求出每个参数集合中的平均值;将这些平均值采用加权平均求出新的参数;
S8、利用新的参数构建新的全局模型,测试所述新的全局模型是否满足停止迭代条件,若满足,则停止训练过程,否则服务器将新的所述全局模型所对应的新的参数打包成数据包并广播下发返回步骤S2。


2.根据权利要求1所述的一种基于参数扩充的联合学习方法,其特征在于,所述步骤S4中包括根据所述梯度值集合确定出数据区间,在所述数据区间中找到满足截断正态分布的随机数,按照所述随机数对本地模型的真实参数进行缩放,产生该真实参数所对应的k-1个虚假参数;并将所述真实参数与所述k-1个虚假参数混合产生参数集合。


3.根据权利要求2所述的一种基于参数扩充的联合学习方法,其特征在于,所述根据所述梯度值集合确定出数据区间包括根据梯度值集合Δθ=[Δθ1,Δθ2,...,Δθn]确定出数据区间的端点值a和b,表示为:






其中,a表示数据区间的左端点,b表示数据区间的右端点;Δθ表示梯度值集合,其下标表示本地训练迭代的次数,n表示本地训练迭代过程的迭代总数;Δθmax表示梯度值集合中的最大值,Δθmin表示梯度值集合中的最小值。


4.根据权利要求2所述的一种基于参数扩充的联合学习方法,其特征在于,对真实参数的缩放方式包括在真实参数上采用加减乘除方式中任意一种方式进行缩放。


5.一种基于参数扩充的联合学习装置,其特征在于,所述装置包括模型参数产生模块、模型训练模块、参数存储模块、扩充参数模块、单点聚合模块、全局聚合模块、判断模块...

【专利技术属性】
技术研发人员:刘媛妮柳宛肖曼周妍妍
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1