【技术实现步骤摘要】
一种基于联盟链的联邦学习的数据处理方法与系统
本专利技术属于大数据分析与数据挖掘领域,尤其涉及一种基于联盟链的联邦学习的数据处理方法与系统。
技术介绍
联邦学习致力于解决多用户在不公开各自数据集的情形下,协同完成模型训练的问题。例如,多个不同机构、不同项目组或者不同服务器中,其各自拥有不同的用户样本数据,在评估用户是否能够被允许使用其中的资源时,由于各机构、项目组或服务器之间拥有样本数据量有限,如果仅仅基于自身的数据来训练模型,受样本规模的限制,模型效果难以达到预期。如果能将各家数据聚合来训练,则可以大幅提升模型精度。然而出于竞争关系以及对数据隐私的监管要求,各方均不愿意将自身的客户数据向任何第三方发布,直接将各家数据聚合到一起建模是行不通的。因此,联邦学习技术应运而生,在不泄露自身原始数据的情形下,共同训练机器学习模型提供了可能。以用户鉴权问题结合横向联邦学习的场景为例,模型需要通过构建逻辑回归模型来确定用户是否能够被允许使用相应的资源(例如,电信增值业务)。模型训练的最终目的是需要找到合适的参数,使得总损失函数最 ...
【技术保护点】
1.一种基于联盟链的联邦学习的数据处理方法,其特征在于,包括:/n发起方建立智能合约;/n联盟链上各个节点将初始模型参数写入智能合约中;/n各节点将样本数据量发送到智能合约上,根据各个样本数据量大小分别分配相应数量的通证;/n每一轮模型训练中,各节点将训练获得的梯度值发送至所述智能合约,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数;/n根据所述偏离指数识别可疑节点;/n其他节点基于PBFT机制对可疑节点进行投票,根据投票结果对所述可疑节点进行验证。/n
【技术特征摘要】
1.一种基于联盟链的联邦学习的数据处理方法,其特征在于,包括:
发起方建立智能合约;
联盟链上各个节点将初始模型参数写入智能合约中;
各节点将样本数据量发送到智能合约上,根据各个样本数据量大小分别分配相应数量的通证;
每一轮模型训练中,各节点将训练获得的梯度值发送至所述智能合约,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数;
根据所述偏离指数识别可疑节点;
其他节点基于PBFT机制对可疑节点进行投票,根据投票结果对所述可疑节点进行验证。
2.如权利要求1所述方法,其特征在于,所述通证的数量与样本数据量的平方根成正比。
3.如权利要求1所述方法,其特征在于,每一轮训练中,各节点将训练获得的梯度值发送至所述智能合约之后,还包括:
智能合约将各个节点发送的梯度值进行相加,获得梯度和;
各个节点查询所述智能合约获得所述梯度和,并基于所述梯度和进行下一轮模型训练,直到满足训练停止条件。
4.如权利要求3所述的方法,其特征在于,获得所述梯度和之后,还包括:
基于所述梯度和更新所述初始模型参数或者上一轮的模型参数。
5.如权利要求1所述方法,其特征在于,根据各个节点的梯度值和样本数据量,计算各节点的偏离指数,包括:
根据各个节点的梯度值,计算梯度平均值;
根据所述梯度平均值、各个节点的梯度值和各个样本数据量,计算各个节点的偏离指数;
所述偏离指数通过以下公式进行计算:
;
其中,为第m个节点的样本数据量...
【专利技术属性】
技术研发人员:邵俊,万友平,李骏琪,
申请(专利权)人:索信达北京数据技术有限公司,深圳索信达数据技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。