一种面向联邦学习的群体众筹博弈的持续激励方法技术

技术编号:38356197 阅读:7 留言:0更新日期:2023-08-05 17:27
本发明专利技术涉及一种面向联邦学习的群体众筹博弈的持续激励方法,针对面向联邦学习的群体众筹架构中激励机制设计问题,采用基于Stackelberg双层博弈框架的激励机制,将机制设计分解为三个主要步骤,包括用户选择、酬金分配和持续性激励过程。首先针对用户感知数据质量未知的问题,将用户选择问题建模为组合多臂赌博机问题,同时为解决用户间的不公平选择问题,引入虚拟队列技术,保证用户公平性选择。其次,将联邦学习的分配策略建模为两阶段的Stackelberg博弈过程,以激励用户参与联邦学习训练,确定平台的最优定价策略和用户的最优训练策略。最后,对确保有足够的用户参与联邦学习训练过程,提出基于用户声誉的报酬激励策略,防止高声誉用户退出系统,保证持续性激励。保证持续性激励。保证持续性激励。

【技术实现步骤摘要】
一种面向联邦学习的群体众筹博弈的持续激励方法


[0001]本专利技术涉及一种面向联邦学习的群体众筹博弈的持续激励方法,属于无线通信


技术介绍

[0002]近年来,随着物联网技术的快速发展,相关的智慧服务被广泛应用到智慧城市、森林检测、智慧海洋等场景中。据估计,到2030年全球物联网设备数量将超过100万亿。因此,物联网服务场景中海量数据的收集将面临巨大挑战。在此背景下,作为一种新兴的数据感知的范式,群体众筹技术应运而生。群体众筹通过用户间的协同合作,利用用户所携带设备提供的数据感知、计算及无线通信能力,完成大规模的数据感知服务,诸如环境监测、交通密度评估、城市规划、位置导航和医疗保健等。相比于传统数据感知技术,依赖昂贵的专用传感基础设施,群体众筹具备高敏捷性、高灵活性和低成本等优势。
[0003]一个典型的群体众筹的系统主要包括一个部署在云端的平台和一群移动用户,平台通过招募移动用户收集感知数据,通过用户的智能终端设备,完成大规模数据感知的众筹任务。然而,在执行众筹任务期间,用户需要上传将其感知数据(例如,每日轨迹、实时位置和周围环境),此类机制可能导致严重的数据安全风险,如隐私泄露、数据窃听和用户个人数据滥用。同时,随着边缘网络中物联网数据的爆炸式增长,将通过群体众筹收集的数据上传到远程服务器所耗费的网络资源和产生的通信延迟,不利于实际应用部署。因此,有必要进一步研究和改进相关技术,以弥补群体众筹技术中的不足。
[0004]联邦学习(Federated Learning,FL)作为一种新兴的分布式学习框架,可以用于构建智能和增强隐私的群体众筹应用。一方面,随着人工智能技术在智能终端设备中的应用得到了巨大的发展,智能终端设备可以通过专门的硬件架构和计算引擎,解决各种机器学习问题。根据Gartner预测,到2022年,80%的智能手机将具备部署人工智能应用的能力,这为群体众筹系统中联邦学习的应用提供了基础条件。另一方面,据研究机构估计,超过90%的数据将在用户本地存储和处理(例如,在网络边缘层),这群体众筹系统中联邦学习的应用提供了广阔潜力。
[0005]通常情况下,联邦学习的用户在计算能力、数据资源等方面具有异构性,例如用户设备在硬件资源、网络连接及电源状态是各不相同的,同时由于用户的信誉特征,对收集的感知数据质量产生不同的影响。如何全面衡量用户对联邦学习的贡献,并选择高质量用户参与是一个十分关键的方向。如果选择参与联邦学习的用户如果没有足够的训练数据和计算能力,联邦学习的训练性能(例如,模型精度、训练速度)将大幅度恶化。同时,在选择用户参与前,对群体众筹平台来说用户质量是未知的。因此,设计合理的用户质量评估和学习策略至关重要。基于群体众筹的联邦学习系统中,用户具有独立性,只有用户自身才能决定何时、何地以及如何参与联邦学习。同时,在群体众筹系统中,联邦学习会消耗用户的大量资源,例如计算能力、通信带宽和私有数据等,将导致计算资源消耗、网络带宽使用和用户设备电池寿命缩短,其中一些可能会在移动通信网络等场景中受到限制。然而,如果没有足够
的奖励可以激励用户容忍这些成本付出,用户可能不愿意参与联邦学习并分享其模型更新。因此,需要设计合理的激励机制来激励更多拥有高质量数据和充足计算与通信资源的用户参与联邦学习。

技术实现思路

[0006]本专利技术所要解决的技术问题是提供一种面向联邦学习的群体众筹博弈的持续激励方法,基于群智众筹招募用户参与联邦学习训练过程,通过所设计的激励机制选择高质量用户参与,并设计合理的酬金分配策略,同时确定每个用户的声誉值,给予额外的奖励激励用户持续参与联邦学习训练。
[0007]本专利技术为了解决上述技术问题采用以下技术方案:一种面向联邦学习的群体众筹博弈的持续激励方法,根据任务请求者的关于模型训练的群体众筹任务,群智众筹平台首先通过强化学习算法选择用户参与联邦学习过程,并基于双层Stackelberg博弈确定用户的最优定价策略,同时确定每个用户的声誉值,给予额外的奖励激励用户持续参与联邦学习训练。
[0008]一种面向联邦学习的群体众筹博弈的持续激励方法,该方法包括:
[0009]步骤1,任务请求者向联邦学习平台发布群体众筹任务;
[0010]步骤2,联邦学习平台招募用户参与联邦学习,在此过程中,联邦学习平台向任务请求者收取报酬,并向被招募的用户发放酬金,同时,在每个轮次中对上一轮次未被招募的用户给予额外的奖励;在每个轮次中,每个用户独立地决定是否参与群体众筹任务,并决定参与联邦学习的数据量。
[0011]进一步地,所述步骤1中群体众筹任务定义为其中,Loc,B,K分别表示任务地点、任务预算和执行任务所需用户数,T表示最大轮次数,τ
min
表示每个轮次的最短截至期限。
[0012]进一步地,所述步骤2中联邦学习平台在t轮次中对用户i给予额外的奖励为:
[0013][0014]其中,ρ是用户单位声誉奖励,表示用户i在t轮次中的声誉值;表示用户i在t

1轮次中是否被招募,
[0015]进一步地,所述步骤2中联邦学习平台基于如下用户招募问题确定用户选择策略:
[0016][0017][0018][0019]其中,表示用户i在t轮次中用于模型训练的数据质量,T表示最大轮次数,δ表
示用户i将被招募的所需轮次的最小值,K表示执行任务所需用户数,表示用户i在t轮次中是否被招募,
[0020]进一步地,所述步骤2中基于Stackelberg博弈,确定用户的定价策略使得联邦学习平台效用最大化,确定用户参与联邦学习的数据量使得用户效用最大化。
[0021]进一步地,当用户的投资回报率低于设定阈值时,该用户退出该群体众筹任务,其中,用户的投资回报率的表达式为:
[0022][0023]其中,表示用户i在t轮次中的投资回报率,R(
·
)和C(
·
)分别表示用户i的累计报酬和成本,表示联邦学习平台在t轮次中对用户i给予额外的奖励,β
i
表示用户i的容忍系数。
[0024]进一步地,引入虚拟队列技术将用户招募问题扩展为:
[0025][0026][0027][0028]其中,V
it
表示用户i在t轮次中的虚拟队列长度,[
·
]+
=max{
·
,0},V
i1
=0,表示用户i在t

1轮次中是否被招募,α≥0表示非负参数;
[0029]采用多臂赌博机模型中的UCB策略的思想,联邦学习平台为用户i维护一个二元组其中其中表示为用户i在t轮次中被联邦学习平台招募的次数,是用户i在t轮次中的平均数据质量,进而,将用户选择标准表示为:
[0030][0031]其中,ζ表示探索常数。
[0032]进一步地,用户效用函数表示如下:
[0033][0034]其中,表示联邦学习平台在t轮次中对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:该方法包括:步骤1,任务请求者向联邦学习平台发布群体众筹任务;步骤2,联邦学习平台招募用户参与联邦学习,在此过程中,联邦学习平台向任务请求者收取报酬,并向被招募的用户发放酬金,同时,在每个轮次中对上一轮次未被招募的用户给予额外的奖励;在每个轮次中,每个用户独立地决定是否参与群体众筹任务,并决定参与联邦学习的数据量。2.根据权利要求1所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:所述步骤1中群体众筹任务定义为其中,Loc,B,K分别表示任务地点、任务预算和执行任务所需用户数,T表示最大轮次数,τ
min
表示每个轮次的最短截至期限。3.根据权利要求1所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:所述步骤2中联邦学习平台在t轮次中对用户i给予额外的奖励为:其中,ρ是用户单位声誉奖励,表示用户i在t轮次中的声誉值;表示用户i在t

1轮次中是否被招募,4.根据权利要求1所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:所述步骤2中联邦学习平台基于如下用户招募问题确定用户选择策略:在于:所述步骤2中联邦学习平台基于如下用户招募问题确定用户选择策略:在于:所述步骤2中联邦学习平台基于如下用户招募问题确定用户选择策略:其中,表示用户i在t轮次中用于模型训练的数据质量,T表示最大轮次数,δ表示用户i将被招募的所需轮次的最小值,K表示执行任务所需用户数,表示用户i在t轮次中是否被招募,5.根据权利要求1所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:所述步骤2中基于Stackelberg博弈,确定用户的定价策略使得联邦学习平台效用最大化,确定用户参与联邦学习的数据量使得用户效用最大化。6.根据权利要求1所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:当用户的投资回报率低于设定阈值时,该用户退出该群体众筹任务,其中,用户的投资回报率的表达式为:
其中,表示用户i在t轮次中的投资回报率,R(
·
)和C(
·
)分别表示用户i的累计报酬和成本,表示联邦学习平台在t轮次中对用户i给予额外的奖励,β
i
表示用户i的容忍系数。7.根据权利要求4所述的一种面向联邦学习的群体众筹博弈的持续激励方法,其特征在于:引入虚拟队列技术将用户招募问题扩展为:在于:引入虚拟队列技术将用户招募问题扩展为:在于:引入虚拟队列技术将用户招募问题扩展为:其中,表示用户i在t轮次中的虚拟队列长度,[
·
]
+
=max{
·
,0},V
i1
=0,表示用户i在t

1轮次中是否被招募,α≥0表示非负参数;采用多臂赌博机模型中的UCB策略的思想,联邦学习平台为用户i维护一个二...

【专利技术属性】
技术研发人员:张晖遆宁罗天翔王琴
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1