一种基于数据质量的联邦学习方法及系统技术方案

技术编号:38991835 阅读:9 留言:0更新日期:2023-10-07 10:22
本发明专利技术涉及一种基于数据质量的联邦学习方法及系统,方法包括:根据联邦学习任务要求,向各个参与方发送数据需求规范;获取各个参与方的参与请求、任务报价及信誉值;根据各个参与方的参与请求、任务报价及信誉值计算被选择参与方;向被选择参与方发送全局模型数据;获取被选择参与方计算的局部模型数据,对全局模型数据进行更新;计算各个被选择参与方的贡献度,更新信誉值。本发明专利技术的方法在参与方数据质量不平衡的情况下,能够在每次迭代结束后有效识别和筛选出数据质量高的参与方,并在每次迭代开始时在预算范围内动态选择信誉度最高的若干参与方进行计算,从而作出最大全局模型增益的最佳决策。益的最佳决策。益的最佳决策。

【技术实现步骤摘要】
一种基于数据质量的联邦学习方法及系统


[0001]本专利技术属于联邦学习
,具体涉及一种基于数据质量的联邦学习方法及系统。

技术介绍

[0002]在实际数据挖掘场景中,数据通常是碎片化的和小规模的,分散在多个数据持有方手中。传统的将这些数据共享至一个中心服务器的方案,不仅对中心服务器的通信、计算和存储能力有很高的要求,更重要的是会导致数据流向不可控和数据泄露等风险。分布式机器学习虽然能够满足对存储和计算能力的要求,但是需要先集中存储这些数据再进行拆分,仍然有泄露数据隐私的风险。
[0003]联邦学习是一种分布式机器学习的新范式,它能够在私有数据存储在参与方本地的情况下协同多方训练一个共享的全局模型,解决了数据孤岛现象导致的数据匮乏问题,并从技术层面保证了参与方的数据隐私安全。在联邦学习中,每个参与方首先从中心服务器方下载当前通信回合的全局模型参数,之后在本地私有数据上优化更新模型,最后将更新后的局部模型参数发送给中心服务器方。中心服务器方接收到各局部模型参数后执行FedAvg算法,即平均所有局部模型参数,以更新全局模型。然而,联邦学习也存在着一些问题。
[0004]首先,联邦学习需要携带高质量数据的参与方持续参与训练任务。在实际场景中,参与方的数据在质量上通常是参差不齐的。经典的联邦学习聚合算法FedAvg,在每个通信回合中随机选择一部分参与方,并没有关注数据价值高的参与方。然而,选择数据质量高的参与方,不仅能够加快全局模型收敛速度,更重要的是可以极大提升模型性能。
[0005]其次,联邦学习面临着安全隐患,因为并非所有参与方都是诚实的。恶意的参与方可以使用数据中毒、模型中毒等手段毒化全局模型。已有研究表明,少量恶意参与方提交中毒模型即可对全局模型造成巨大破坏。因此,需要设计一些安全机制,来检测和防范恶意参与方的攻击。
[0006]第三,参与方在联邦学习的参与过程中,贡献了大量数据、计算和通信资源,需要对数据质量高的参与方给予公平且合理的补偿,以激励参与方持续参与联邦任务。
[0007]为了解决上述问题,现有技术提出以下方案:
[0008]第一、基于参与方的通信、计算资源等硬件条件,选择效率高的参与方。
[0009]第二、基于参与方数据价值的选择方法,分为两个子类:基于数据量的选择方法和基于数据质量的选择方法。基于数据量的选择方法顾名思义,以参与方的数据量为依据,选择更有价值的参与方。基于数据质量的选择方法则更关注于数据的内在价值,表现为数据分布、局部模型精度和局部模型损失等。
[0010]第三、基于激励机制对参与方进行选择,不仅选择了数据价值高的参与方,还激励参与方持续参与联邦任务。然而,联邦学习任务的预算通常是有限的,这导致了数据质量和预算限制之间的矛盾。
[0011]上述方法要么选择价值更高的参与方,如通信价值、计算价值和数据价值等,要么设计和数据质量、参与方积极性相关的声誉等激励机制,却没有把任务的预算也考虑在内,存在巨大的数据质量和预算限制之间的矛盾。

技术实现思路

[0012]基于现有技术中存在的上述缺点和不足,本专利技术的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本专利技术的目的之一是提供满足前述需求之一或多个的一种基于数据质量的联邦学习方法及系统。
[0013]为了达到上述专利技术目的,本专利技术采用以下技术方案:
[0014]一种基于数据质量的联邦学习方法,应用于中心服务器方,包括:
[0015]根据联邦学习任务要求,向各个参与方发送数据需求规范;
[0016]获取各个参与方的参与请求、任务报价及信誉值;
[0017]根据各个参与方的参与请求、任务报价及信誉值计算被选择参与方;
[0018]向被选择参与方发送全局模型数据;
[0019]获取被选择参与方计算的局部模型数据,根据局部模型数据对全局模型数据进行更新;
[0020]计算各个被选择参与方的贡献度;
[0021]根据贡献度和任务报价更新信誉值。
[0022]作为一种优选方案,上述方法中,根据各个参与方的参与请求、任务报价及信誉值计算被选择参与方包括:
[0023]获取各个参与方的信誉值;
[0024]根据各个参与方的信誉值计算各个参与方对任务的预期效益;
[0025]根据参与请求,在任务报价总额不超过总预算的前提下,选择预期效益最高的被选择参与方集合。
[0026]作为一种优选方案,上述方法中,计算各个被选择参与方的贡献度包括:
[0027]计算各个被选择参与方的局部模型数据对全局模型数据的性能贡献;
[0028]根据各个被选择参与方的性能贡献计算各个被选择参与方的贡献度。
[0029]作为一种进一步优选的方案,性能贡献的参考指标包括准确率、召回率和AUC中的一种或多种。
[0030]作为一种优选方案,上述方法中,根据贡献度和任务报价更新信誉值包括:
[0031]获取各个被选择参与方的受惩罚计数值;
[0032]根据贡献度和任务报价计算信誉值,并根据受惩罚计数值减少信誉值的计算结果。
[0033]作为一种进一步优选的方案,受惩罚计数值根据各个被选择参与方的贡献度小于预设贡献度阈值的次数得到。
[0034]第二方面,本专利技术还提供一种基于数据质量的联邦学习方法,应用于参与方,包括:
[0035]获取数据需求规范;
[0036]根据数据需求规范确定是否响应,若响应,则向中心服务器方发送参与请求、任务
报价;
[0037]获取全局模型数据;
[0038]根据全局模型数据计算局部模型数据;
[0039]向中心服务器方发送局部模型数据。
[0040]第三方面,本专利技术还提供一种基于数据质量的联邦学习系统,包括:
[0041]中心服务器模块,中心服务器模块用于根据联邦学习任务要求,向各个参与方模块发送数据需求规范;获取各个参与方模块的参与请求、任务报价及信誉值;根据各个参与方模块的参与请求、任务报价及信誉值计算被选择参与方模块;向被选择参与方模块发送全局模型数据;获取被选择参与方模块计算的局部模型数据,根据局部模型数据对全局模型数据进行更新;计算各个被选择参与方模块的贡献度;根据贡献度和任务报价更新信誉值;
[0042]若干参与方模块,参与方模块用于获取数据需求规范;根据数据需求规范确定是否响应,若响应,则向中心服务器模块发送参与请求、任务报价;获取全局模型数据;根据全局模型数据计算局部模型数据;向中心服务器模块发送局部模型数据。
[0043]本专利技术与现有技术相比,有益效果是:
[0044]本专利技术的方法在参与方数据质量不平衡、甚至高度不平衡的情况下,能够在每次迭代结束后有效识别和筛选出数据质量高的参与方,并在每次迭代开始时在预算范围内动态选择信誉度最高的若干参与方进行计算,从而作出最大全局模型增益的最佳决策。在考虑对参与方进行激励的总预算的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据质量的联邦学习方法,应用于中心服务器方,其特征在于,包括:根据联邦学习任务要求,向各个参与方发送数据需求规范;获取各个所述参与方的参与请求、任务报价及信誉值;根据各个所述参与方的参与请求、任务报价及信誉值计算被选择参与方;向所述被选择参与方发送全局模型数据;获取所述被选择参与方计算的局部模型数据,根据所述局部模型数据对所述全局模型数据进行更新;计算各个所述被选择参与方的贡献度;根据所述贡献度和所述任务报价更新所述信誉值。2.如权利要求1所述的一种基于数据质量的联邦学习方法,其特征在于,所述根据各个所述参与方的参与请求、任务报价及信誉值计算被选择参与方包括:获取各个所述参与方的信誉值;根据各个所述参与方的所述信誉值计算各个所述参与方对任务的预期效益;根据所述参与请求,在任务报价总额不超过总预算的前提下,选择所述预期效益最高的被选择参与方集合。3.如权利要求1所述的一种基于数据质量的联邦学习方法,其特征在于,所述计算各个所述被选择参与方的贡献度包括:计算各个所述被选择参与方的局部模型数据对所述全局模型数据的性能贡献;根据各个所述被选择参与方的所述性能贡献计算各个所述被选择参与方的贡献度。4.如权利要求3所述的一种基于数据质量的联邦学习方法,其特征在于,所述性能贡献的参考指标包括准确率、召回率和AUC中的一种或多种。5.如权利要求1所述的一种基于数据质量的联邦学习方法,其特征在于,所述根据所述贡献度和所述任务报价更新所述信誉值包括:获取各个所述...

【专利技术属性】
技术研发人员:江亚东张忠良雒兴刚陈文冲费秦君
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1