当前位置: 首页 > 专利查询>贵州大学专利>正文

一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制制造技术

技术编号:35032644 阅读:48 留言:0更新日期:2022-09-24 23:07
本发明专利技术设计了一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制,旨在打破无激励条件下的囚徒困境,选取真正符合联邦学习任务要求的用户,最大化联邦学习效用,确保联邦学习生态系统的健康发展。其主要思想是从开销和效用两方面入手,设计高效公平的联邦学习激励机制。我们基于反向拍卖设计开销选择算法,从而减少任务发布者选取数据拥有者的开销,并设计多因子奖励函数进行激励。在此基础上,我们建立了斯塔克尔伯格博弈模型,在动态环境下实现最佳奖励策略和最佳训练策略。最佳奖励策略和最佳训练策略。最佳奖励策略和最佳训练策略。

【技术实现步骤摘要】
一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制


[0001]本专利技术属于人工智能领域,涉及联邦学习激励机制。

技术介绍

[0002]在缺乏激励的条件下,联邦学习陷入囚徒困境。目前,大多数的激励机制根据用户对联邦学习的贡献提供奖励,其基于贡献的数据量大小、可花费的隐私预算、训练时间、计算和通信花销、提升的模型精度、信誉来评估贡献。然而,仅仅考虑单一贡献指标,即单因子,无法选取真正符合联邦学习任务要求的用户,这不利于联邦学习生态系统的健康发展。因此,迫切需要一个多因子评估机制。
[0003]博弈论被视为研究联邦学习激励机制的有力工具,特别是在分析联邦学习双方为最大化自身利益进行复杂的交互时,一般采用斯塔克尔伯格博弈进行建模降低复杂度。

技术实现思路

[0004]本专利技术的目的是提供一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制,为打破无激励条件下的联邦学习囚徒困境,采用多因子评估机制,并基于斯塔克尔伯格博弈设计新的激励机制,为实现上述目的,本专利技术采用如下技术方案:
[0005]步骤一:发布任务信息:任务发布者作为斯塔克尔伯格博弈中的领导者,将联邦学习任务信息发布给数据拥有者,任务信息包括奖励策略、算力、数据量等。
[0006]步骤二:报告开销:作为跟随者的数据拥有者在收到奖励策略等任务信息后,基于反向拍卖报告完成任务所需的开销。任务发布者选取前K个开销小的数据拥有者参与联邦学习。
[0007]步骤三:本地训练:数据拥有者接收全局模型进行模型训练,并上传梯度
[0008]步骤四:攻击检测:由于联邦学习参数平均的特性,恶意攻击者在梯度中加入小的随机噪声并不会影响全局模型收敛,因此恶意攻击者必须上传不同于正常梯度的异常梯度才能损害全局模型,即任务发布者可以通过计算梯度的相似性来识别异常梯度,从而筛选恶意攻击者。
[0009]步骤五:计算信誉:任务发布者基于主观逻辑模型计算数据拥有者的信誉。由于历史行为和当前事件的信誉不同,任务发布者为历史行为分配较低的权重,而当前事件分配较高的权重。
[0010]步骤六:评估贡献:任务发布者评估数据拥有者的贡献,并根据信誉、模型准确率、奖励率多因子奖励函数对其进行激励。
[0011]步骤七:更新信誉:任务发布者对本次任务中数据拥有者的信誉值进行更新,并将其上传至信誉区块链。
附图说明
[0012]图1详细描述了本专利技术激励机制的系统模型。
具体实施方式:
[0013]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0014]本专利技术提供一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制,具体步骤如下:
[0015]步骤一:发布任务信息,任务发布者作为斯塔克尔伯格博弈中的领导者,将联邦学习任务信息发布给数据拥有者,任务信息包括奖励策略、算力、数据量等。奖励策略由多因子奖励函数表示,其定义如下。
[0016][0017]在上述公式中,表示信誉,表示模型准确率,γ
t
奖励率,N表示数据拥有者的数量。
[0018]步骤二:报告开销,作为跟随者的数据拥有者在收到奖励策略等任务信息后,基于反向拍卖报告完成任务所需的开销;任务发布者选取前K个开销小的数据拥有者参与联邦学习。
[0019]步骤2.1:由于联邦学习中存在信息不对称问题,任务发布者无法快速了解数据拥有者加入联邦学习的动力和资质,并对其分类。数据拥有者向任务发布者报告的开销可定义如下。
[0020]步骤2.2:任务发布者根据开销选择算法选择数据拥有者进行模型训练。
[0021][0022]步骤三:本地训练,数据拥有者接收全局模型进行模型训练,并上传梯度。
[0023]步骤3.1:每个数据拥有者拥有训练数据集D
i
,其输入为x,对应的标签为y,M为全局模型,θ为模型参数,L
i
(.)为数据拥有者的本地损失函数,数据拥有者参与联邦学习的目标函数可被定义为。
[0024][0025]步骤3.2:数据拥有者在本地训练产生的梯度G
i
可被定义为。
[0026][0027]步骤四:攻击检测,由于联邦学习参数平均的特性,恶意攻击者在梯度中加入小的随机噪声并不会影响全局模型收敛,因此恶意攻击者必须上传不同于正常梯度的异常梯度才能损害全局模型,即任务发布者可以通过计算梯度的相似性来识别异常梯度,从而筛选恶意攻击者。
[0028]步骤4.1:任务发布者聚合所有G
i
得到的全局梯度可被定义为。
[0029][0030]步骤4.2:任务发布者可以通过计算梯度的相似性来识别异常梯度,从而筛选恶意攻击者。计算梯度的相似性可被定义为。
[0031][0032]步骤五:计算信誉,任务发布者基于历史行为和当前状态计算数据拥有者的信誉。
[0033]步骤5.1:任务发布者将信誉作为衡量数据拥有者可信程度的指标,并基于主观逻辑模型计算信誉。数据拥有者的信誉可被定义为。
[0034][0035]R=mT
ti

nT
di

pT
ui
[0036]步骤5.2:引入新鲜度f后,信誉可被重新定义为。
[0037][0038]步骤六:评估贡献,任务发布者评估数据拥有者的贡献,并根据多因子奖励函数对其进行激励。
[0039]步骤6.1:任务发布者的效用函数可被定义为。
[0040][0041]步骤6.2:数据拥有者的效用函数可被定义为。
[0042][0043]步骤6.3:最大化任务发布者和数据拥有者效用函数问题转化为斯塔克尔伯格博弈,其最优均衡解可被定义为。
[0044][0045]步骤6.4:求解数据拥有者的最优训练策略。
[0046][0047]步骤6.5:求解任务发布者的最优奖励策略。
[0048][0049]步骤七:更新信誉,任务发布者对本次任务中数据拥有者的信誉值进行更新,并将其上传至信誉区块链。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于斯塔克尔伯格博弈的多因子联邦学习激励机制,具体步骤如下:步骤一:发布任务信息:任务发布者作为斯塔克尔伯格博弈中的领导者,将联邦学习任务信息发布给数据拥有者,任务信息包括奖励策略、算力、数据量等;步骤二:报告开销:作为跟随者的数据拥有者在收到奖励策略等任务信息后,基于反向拍卖报告完成任务所需的开销;任务发布者选取前K个开销小的数据拥有者参与联邦学习;步骤三:本地训练:数据拥有者接收全局模型进行模型训练,并上传梯度;步骤四:攻击检测:由于联邦学习参数平均的特性,恶意攻击者在梯度中加入小的随机噪声并不会影响全局...

【专利技术属性】
技术研发人员:陈玉玲周辉钱晓斌胡建文白瑞
申请(专利权)人:贵州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1