基于信誉反向拍卖的联邦学习激励方法、系统和存储介质技术方案

技术编号:38760735 阅读:11 留言:0更新日期:2023-09-10 10:33
本发明专利技术公开了基于信誉反向拍卖的联邦学习激励方法、系统和存储介质,属于联邦学习技术领域。本发明专利技术的基于信誉机制和反向拍卖的联邦学习激励方法,通过构建信誉评估模型、反向拍卖学习模型、联邦学习服务器,对若干客户端的信誉数据进行评估,进而筛选出一个或多个客户端作为候选客户端;然后对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;并根据交互信息,对最佳客户端进行信誉评估,得到信誉激励值;再对最佳客户端的信誉数据进行更新,从而完成基于信誉机制和反向拍卖的联邦学习激励,能够有效保证整个激励机制的真实性和可靠性,同时能够激励更多具有高质量数据和高信誉值的客户端参与联邦学习。数据和高信誉值的客户端参与联邦学习。数据和高信誉值的客户端参与联邦学习。

【技术实现步骤摘要】
基于信誉反向拍卖的联邦学习激励方法、系统和存储介质


[0001]本专利技术涉及基于信誉反向拍卖的联邦学习激励方法、系统和存储介质,属于联邦学习


技术介绍

[0002]随着边缘计算和分布式机器学习的快速发展,再加之重视数据隐私和安全已成为全球趋势,联邦学习(FL)作为隐私计算中一种新的分布式机器学习范式被提出。
[0003]尽管联邦学习是非常有前景的分布式学习技术,但其仍面临着严峻的挑战。一方面,数据所有者参与联邦学习任务会增加其系统成本,如消耗设备的电能、计算资源和通信资源,同时数据所有者在训练过程中也面临着隐私泄露的威胁和风险,因此,理性的数据所有者不愿意在没有任何激励措施和经济补偿的情况下自愿参与联邦学习。另一方面,一些不可靠或者恶意的数据所有者可能会无意或故意地执行不期望的行为,比如刻意用低质量的数据作为训练数据,在训练过程中发起投毒攻击等。这些恶意行为会影响全局模型的性能,甚至导致联邦学习任务的失败。
[0004]然而目前对联邦学习的大部分工作和研究主要集中在算法优化、提高效率和保护隐私等方面,缺少了对数据所有者参与训练的激励机制和可靠数据所有者选择的研究。联邦学习的性能很大程度上依赖于数据所有者本地模型更新的质量,数据所有者没有参与联邦学习的动力和不可靠数据所有者对联邦学习效果的恶意影响都将极大地降低全局模型的精度,这严重阻碍了联邦学习更广泛的应用。因此,需要设计一种真实可靠的联邦学习激励机制,在能够保证数据所有者真实可信的情况下,激励更多具有高质量数据的可靠数据所有者参与联邦学习,促进联邦学习网络高效且稳定地发展。
[0005]进一步,已有技术方案1:专利号为202210331207.1的《一种基于动态契约理论的车联网联邦学习激励方法》专利公开了一种基于动态契约理论的车联网联邦学习激励方法,为联邦学习服务器和车联网客户端建立了两期动态契约激励机制,在非对称信息的情况下,最大化联邦学习服务器的效用,使车联网客户端选择和自身私有信息相对应的契约,当车联网客户端选择和自身类型相对应的契约时,车联网客户端获得的效用最高。在长期合作下,考虑了车联网联邦学习的私有信息的动态变化,采用了动态契约激励机制,更适用于联邦学习服务器和车联网边缘设备之间的长期合作,联邦学习服务器和车联网边缘设备会获得更高的收益。
[0006]已有技术方案2:专利号为202111548089.1的《一种基于区块链的联邦学习激励机制的方法》专利公开了一种基于区块链的联邦学习激励机制的方法,通过评估设定参与方数据质量、信誉度门槛,保护现有参与方的利益,当参与方的数据质量、信誉度同时大于数据质量门槛、信誉度门槛时,允许参与方加入联邦学习;增加惩罚机制有效保证现有参与方的利益;通过区块链技术实现激励过程的公开透明,保证激励的公平性与参与方的积极性。基于模型效果的激励机制中加入模型训练的阶段因子,减少模型训练不同阶段效果提升难度的影响。让参与方因为长时间的等待而获得相应的回报,保证参与方的积极性。
[0007]已有技术方案1建立车联网客户端和联邦学习服务器的效用模型,通过满足IR、IC、IIR和IIC约束条件,构建两期动态契约模型得到最优动态契约,实现联邦学习服务器和车联网边缘设备的收益更高。但是该方案中对客户端的私人信息仅考虑了数据量和CPU频率,并没有考虑不同客户端之间数据的非独立同分布特性,这一特性将极大地影响联邦学习性能。同时该方案在模型聚合时仅根据客户端上传模型的精度进行筛选也会在很大程度上影响全局模型性能。并且该方案没有考虑联邦学习过程中客户端可能进行恶意攻击问题。
[0008]已有技术方案2提出的基于区块链的联邦学习激励机制的方法可以有效保证现有参与方的利益,保证激励的公平性与参与方的积极性,减少模型训练不同阶段效果提升难度的影响。但是该方案在评估参与方的数据质量时获取了过多私人信息(如正负样例数),并且没有进行隐私保护,有违联邦学习隐私保护的思想。同时,该方案虽然具有惩罚机制但没有设计客户端恶意行为的检测方案。

技术实现思路

[0009]针对现有技术的缺陷,本专利技术的目的一在于提供一种通过构建信誉评估模型、反向拍卖学习模型、联邦学习服务器,对若干客户端的信誉数据进行评估,进而筛选出一个或多个客户端作为候选客户端;然后对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;并根据交互信息,对最佳客户端进行信誉评估,得到信誉激励值;再对最佳客户端的信誉数据进行更新,从而完成基于信誉机制和反向拍卖的联邦学习激励,能够有效保证整个激励机制的真实性和可靠性,同时能够激励更多具有高质量数据和高信誉值的客户端参与联邦学习,方案科学、合理,切实可行的基于信誉机制和反向拍卖的联邦学习激励方法。
[0010]针对现有技术的缺陷,本专利技术的目的二在于提供一种通过设置数据获取模块、信誉评估模块、客户筛选模块、反向拍卖学习模块、联邦学习服务器和信誉更新模块,对若干客户端的信誉数据进行评估,进而筛选出一个或多个客户端作为候选客户端;然后对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;并根据交互信息,对最佳客户端进行信誉评估,得到信誉激励值;再对最佳客户端的信誉数据进行更新,从而完成基于信誉机制和反向拍卖的联邦学习激励,能够有效保证整个激励机制的真实性和可靠性,同时能够激励更多具有高质量数据和高信誉值的客户端参与联邦学习,方案科学、合理,切实可行的基于信誉机制和反向拍卖的联邦学习激励系统。
[0011]针对现有技术的缺陷,本专利技术的目的三在于提供一种能够有效保证整个激励机制的真实性和可靠性,同时能够激励更多具有高质量数据和高信誉值的客户端参与联邦学习,方案科学、合理,切实可行的基于信誉反向拍卖的联邦学习激励方法、系统和存储介质。
[0012]为实现上述目的之一,本专利技术的第一种技术方案为:
[0013]基于信誉机制和反向拍卖的联邦学习激励方法,包括以下步骤:
[0014]第一步,获取若干客户端的信誉数据;
[0015]第二步,通过预先构建的信誉评估模型,对若干客户端的信誉数据进行评估,得到若干综合信誉评估值;
[0016]第三步,根据若干综合信誉评估值,筛选出一个或多个客户端作为候选客户端;
[0017]第四步,利用预先构建的反向拍卖学习模型对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;
[0018]第五步,获取一个或多个最佳客户端参与联邦学习的交互信息,并根据交互信息,利用预先构建的联邦学习服务器,对最佳客户端进行信誉评估,得到信誉激励值;
[0019]第六步,根据信誉激励值,对最佳客户端的信誉数据进行更新,从而完成基于信誉机制和反向拍卖的联邦学习激励。
[0020]本专利技术经过不断探索以及试验,通过构建信誉评估模型、反向拍卖学习模型、联邦学习服务器,对若干客户端的信誉数据进行评估,进而筛选出一个或多个客户端作为候选客户端;然后对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;并根据交互信息,对最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,包括以下步骤:第一步,获取若干客户端的信誉数据;第二步,通过预先构建的信誉评估模型,对若干客户端的信誉数据进行评估,得到若干综合信誉评估值;第三步,根据若干综合信誉评估值,筛选出一个或多个客户端作为候选客户端;第四步,利用预先构建的反向拍卖学习模型对候选客户端的密封投标数据进行求解,筛选出一个或多个最佳客户端;第五步,获取一个或多个最佳客户端参与联邦学习的交互信息,并根据交互信息,利用预先构建的联邦学习服务器,对最佳客户端进行信誉评估,得到信誉激励值;第六步,根据信誉激励值,对最佳客户端的信誉数据进行更新,从而完成基于信誉机制和反向拍卖的联邦学习激励。2.如权利要求1所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述第一步中,获取若干客户端的信誉数据的方法如下:步骤11,利用预先构建的联邦学习服务器在联邦学习网络中广播联邦学习任务信息;联邦学习任务信息至少包括所需数据类别或/和计算资源或/和投标规则;步骤12,根据联邦学习任务信息,获取若干客户端的参与请求信息;步骤13,联邦学习服务器在收到客户端的参与请求信息后,从预先建立的信誉区块链模型上下载相关客户端的信誉数据。3.如权利要求1所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述第二步中,信誉评估模型对信誉数据进行评估的方法如下:步骤21,根据客户端在联邦学习训练过程中的行为表现和带来的影响,将客户端行为分为恶意行为、消极行为和积极行为,分别对恶意行为、消极行为和积极行为进行检测,得到客户端的行为检测结果;步骤22,根据客户端的行为检测结果,对客户端的信誉进行直接评估,得到直接信誉值;若客户端行为检测为恶意行为,则将联邦学习服务器与客户端的交互定义为恶意交互;若客户端行为检测为消极行为,则将联邦学习服务器与客户端的交互定义为消极交互;若客户端行为检测为积极行为,则将联邦学习服务器与客户端的交互定义为积极交互;根据请求联邦学习服务器和推荐联邦学习服务器之间业务行为的相似度,以及推荐联邦学习服务器给出的信誉与整体推荐信誉的离散程度,进行间接信誉评估,得到间接信誉评估值;步骤23,利用信息熵确定直接信誉值和间接信誉值的自适应权重,根据直接信誉值和间接信誉值的差异程度对信誉值的权重进行修正,得到综合信誉评估值,从而完成客户端信誉数据的评估。4.如权利要求3所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,
所述步骤21中,恶意行为是客户端的投毒攻击行为,其包括数据投毒和模型投毒;消极行为包括客户端在实际训练过程中提供的数据量、EMD距离和CPU工作频率存在与拍卖投标不符的消极情况;积极行为是客户端在拍卖中投标的数据数量、EMD距离和CPU工作频率为真,并且全部完成训练任务;联邦学习服务器通过对客户端上传的本地模型更新进行质量评估,从而实现行为判别和检测;恶意行为检测的方法包括以下内容:联邦学习服务器通过预先构建的投毒攻击检测模型对客户端本地模型更新进行质量评估,判断客户端是否具有恶意行为;针对数据IID和Non

IID场景下的攻击检测,通过比较联邦学习服务器预定义数据库上有无本地模型更新的影响来验证本地模型更新,如果数据库上本地模型更新的性能下降超过系统给定的指定阈值,则在聚合模型更新时将拒绝此本地模型更新;根据Non

IID场景中局部模型更新梯度的多样性来识别恶意的客户端,联邦学习服务器识别出恶意行为,拒绝接受恶意客户端的局部模型参数;消极行为检测的方法包括以下内容:针对消极行为的检测用客户端上传模型的时间和模型精确度差异在客户端之间进行相对检测;针对CPU工作频率造假的检测方法如下:计算客户端的数据样本数d与客户端CPU工作频率f的样频比值;根据样频比值大小,得到客户端的排序序列;将排序序列与服务器记录的客户端上传模型参数的时间序列相比,若客户端在两组序列中出现次序偏差则客户端工作频率造假;客户端本地训练迭代计算时间公式为其中δ
l
为客户端本地迭代轮数,c为客户端在本地训练中执行一个数据样本的CPU周期数,d为客户端的数据样本数,f为客户端CPU工作频率;在本地迭代轮数和执行一个数据样本的CPU周期数不变的情况下,客户端本地训练时间与数据量和CPU工作频率之比成正比;针对数据质量造假的检测方法如下:利用K

means聚类算法将客户端按数据量、EMD距离和模型精确率划分为积极和消极两类,被划分为消极类的客户端存在消极行为,拒绝接受所述客户端的模型参与聚合;或,直接根据本地参数与全局参数是否相同进行检测。5.如权利要求3所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述步骤22中,得到直接信誉值的方法如下:在一个包括N个时隙{t1,t2,...,t
N
}的时间窗口T内,直接信誉评估由积极交互、消极交互和恶意交互的次数占比确定;时隙t
n
的直接信誉计算公式如下所示:
其中表示时隙t
n
内的积极交互次数,表示时隙t
n
内的消极交互次数,表示时隙t
n
内的恶意交互次数;α、β和γ分别表示积极交互、消极交互和恶意交互在信誉计算中的权重,满足α<β<γ且α+β+γ=1;直接信誉值的影响因素包括活跃度和新鲜度;活跃度的计算方法如下:活跃度是服务器P和客户端i在一个时间窗口内交互次数的和与其他客户端平均交互次数的比率,其计算公式如下:其中I
P

i

P
+
N
+
M
,表示服务器P和客户端i在一个时间窗口内交互的总次数,S表示在当前时间窗口内与联邦学习服务器进行交互的客户端的集合;新鲜度的计算公式如下:其中是关于交互新鲜度的给定衰减参数,n∈(1,N)是确定交互新鲜度衰减程度的时隙n;在一个时间窗口内,联邦学习服务器P对客户端i的直接信誉值的计算公式如下:根据相似度以及离散度,计算客户端c的间接信誉值,其计算公式如下:其中,sim(,j)为服务器i和服务器j之间的相似度,ω
j
为推荐服务器j对客户端c的间接信誉值的离散度;相似度的计算方法如下:将每个联邦学习服务器对交互过的客户端的信誉评估表示为一个单独的向量,通过使用皮尔森相关系数求解向量的相似性来度量联邦学习服务器之间业务的相似度;相似度越大,表示推荐服务器给出的信誉可信度越高;根据皮尔森相关系数的定义,服务器i和服务器j之间的相似度计算公式如下:其中I
ij
表示为与联邦学习服务器i和联邦学习服务器j都交互过的客户端集合,即两者都有信誉评估的客户端的集合;R
i,c
表示联邦学习服务器i对客户端c的信誉评估值,R
j,c
表示联邦学习服务器j对客户端c的信誉评估值;表示联邦学习服务器i对I
ij
中客户端信誉评估的均值,表示联邦学习服务器j对I
ij
中客户端信誉评估的均值;离散度的计算方法如下:
通过信息熵反映间接信誉值之间的离散程度,即各间接信誉值偏离整体间接信誉值集合的程度;信息熵能够识别出整体间接信誉中过高和过低的信誉值;利用信息熵计算推荐服务器j对客户端c的间接信誉值的离散度,其计算公式如下:其中表示间接信誉值的熵,n表示推荐服务器的总数;综合考虑请求服务器i和推荐服务器j之间的相似度和推荐服务器之间的离散度,将来自每个推荐服务器j的间接信誉值的权重设定为6.如权利要求3所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述步骤23中,客户端综合信誉值的计算公式如下所示:其中θ
d
、θ
r
分别是直接信誉R
P

i
和间接信誉的自适应权重,自适应权重θ
d
、θ
r
的计算公式如下所示:公式如下所示:7.如权利要求1所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述第三步中,筛选出一个或多个客户端作为候选客户端的方法如下:利用联邦学习服务器设定三个阈值,其包括:直接信誉上限直接信誉下限和信誉阈值R
TH
;联邦学习服务器根据历史交互计算初始客户端的直接信誉,若客户端的直接信誉低于则淘汰客户端;若客户端的直接信誉高于则直接选择客户端;若客户端的直接信誉位于上下限之间,则联邦学习服务器继续计算客户端的间接信誉,再综合考虑直接信誉和间接信誉生成综合信誉;若客户端的综合信誉大于信誉阈值R
TH
,则选择客户端,反之淘汰客户端;被选择出来的客户端将组成候选客户端,参与后续的反向拍卖。8.如权利要求1所述的基于信誉机制和反向拍卖的联邦学习激励方法,其特征在于,所述第四步中,反向拍卖学习模型筛选出一个或多个最佳客户端的方法如下:步骤41,候选客户端进行密封投标,报告其资源配置数据;资源配置数据的表达式如下:
Bid
i
=(d
i
,ε
i
,f
i
,b
i
),其中,d
i
为候选客户端i本地数据量,ε
i
为候选客户端i的EMD距离,f
i
为候选客户端i的CPU工作频率,b
i
为候选客户端i的投标价格,表示候选客户端i参与联邦学习的成本报价;步骤42,接收到候选客户端的投标后,联邦学习服务器需要平衡候选客户端带来的模型收益和需要支付给候选客户端的报酬,在满足收益非负的情况下选择候选客...

【专利技术属性】
技术研发人员:黄建平陈浩李钟煦颜拥韩嘉佳汪自翔陈钰熊翱郭少勇陈洁蔚
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1