【技术实现步骤摘要】
基于用户声誉的强化学习移动众包激励方法
[0001]本专利技术涉及边缘计算中移动众包及强化学习技术,具体是一种基于用户声誉的强化学习移动众包激励方法。
技术介绍
[0002]移动群智感知(MCS)已经成为一种流行并且被广泛采用的城市感知和数据收集模式。近年来手机、平板电脑、可穿戴设备和车载智能设备等移动设备广泛普及,这些移动设备具有感知、计算和通信能力。相较于传统的传感器网络,由移动设备组成的MCS系统具有高度移动性和智能性的特点,能够实现更大范围的覆盖和保证动态感知需求。MCS系统的感知、计算能力依赖于大量的移动设备参与感知任务并贡献自己的感知数据,但是实际情况下没有用户愿意无私贡献,而且参与任务可能会泄露自己的隐私。因此设计一个合理的激励机制鼓励移动用户持续参与感知任务是一个挑战。
[0003]MCS系统在边缘计算场景下通常被简化为云端服务器提供商(SP)和使用终端移动设备的用户,其中SP发布感知任务以及参与任务的奖励,以激励移动用户完成任务。在MCS中不诚实的用户可能会发送虚假的感知数据使任务结果不准确,所以需 ...
【技术保护点】
【技术特征摘要】
1.一种基于用户声誉的强化学习移动众包激励方法,包括单服务器多用户MCS系统,所述单服务器多用户MCS系统设有服务提供商SP、边缘节点和移动用户,假设所有移动用户为M={1,2,...,M},在M中有N={1,2,...,N}的一组最优用户,将连续决策周期划分为等时隙t,t={1,2,...,T},在时隙t,每个用户i的感知级别表示为除用户i外的其他用户的感知级别为所有移动用户的传感级别集合为在每个时间段服务提供商向边缘节点发布感知任务,边缘节点将任务分配给社交网络中的用户,用户收到的任务根据自己和其他用户的感知水平确定并执行任务,将感知数据上传至提供商SP,提供商SP根据数据质量和用户意愿对用户声誉进行评分,并更新声誉记录,其特征在于,所述方法包括如下步骤:1)声誉评定阶段:用户的参与意愿由社交网络效应决定,服务提供商SP在收到数据后更新用户声誉,并评估历史声誉,确定用户和服务商的效用函数,定义用户i的效用函数如公式(1)所示:用户i的效用由收益函数和成本函数两部分组成,第一部分定义用户i获得的金钱奖励,它由感知水平决定、不是的线性函数,R
t
表示在时间段t的总任务奖励,由所有用户共享,用户的奖励也受到用户自身声誉的影响、用户i的声誉越高,奖励越高,第二部分分定义用户i参与任务的成本,其中代表用户感知单位成本,服务提供商SP效用函数是收益减去用户的总奖励R
t
,服务提供商SP的收益用函数φ(t)表示、是由用户的感知级别获得的,如公式(2)所示:其中λ是系统参数,函数反映服务提供商SP对i的服务回报递减,而ln函数反映提供商对移动用户数量的回报递减,假设所有本地参与用户都在社交网络中G=[g
ij
]
i,j∈N
,g
ij
∈{0,1},其中用户i受用户j影响时,则g
ij
=1,否则g
ij
=0,假设社会关系的互惠性为g
ij
=g
ji
,依据社交网络的E
‑
R模型,所有用户都以概率μ的方式连接到社交网络中,μ的值越大,表示每个节点的连接越紧密,表示除i外影响用户i的用户越多,定义用户i参与感知任务的意愿如公式(3)所示:引入参与者绩效指标,即声誉值受获得奖励的影响,绩效指标的性能指数是
移动用户的声誉反馈函数定义如公式(4)所示:公式(4)表示与所有选中的参与者相比,用户i完成任务的程度,将R
t
/N表示为每个用户i的平均奖励来自于总奖励R
t
,在相同的奖励条件下,随着和的值的增加,信用反馈值会增加,服务提供商SP更倾向于选择用户i,用户的声誉更新如公式(5)所示:公式(5)中为用户i获得的新声誉值,为历史声誉值,Ref
it
为反馈值,α为决定参与者在声誉更新过程中获得或失去新声誉值的因素,arctan(*)函数是一个单调递增函数,随着参与者的正反馈,用户的声誉值会增加,而负反馈的下降速度更快,如果这意味着当预设值为0时声誉值将从0.5开始;2)任务发布阶段:服务提供商根据用户声誉从M={1,2,...,M}中选择最优用户N={1,2,...,N},并在最优用户集中确定服务提供商和用户双方的最大效益,在纳什均衡的情况下,提供商SP和用户双方都没有单方面改变自身策略的动机,将服务提供商SP和移动用户描述为一个单领导者和多个追随者的两阶段斯塔克伯格博弈,在领导者子博弈中,服务提供商决定任务提供者为获得更多而提供的总服务报酬如公式(6)所示:在追随者子博弈中,所有用户都分享总奖励,用户之间存在非合作博弈,移动用户根据报酬因素和成本因素确定感知水平,即如公式(7)所示:每个用户通过服务提供商SP的策略确定自己的最优对应策略,具体为:2
‑
1)追随者子博弈:服务提供商SP确定的总奖励R会根据每个用户的感知水平和声誉的权重分配给用户,用户之间会竞争获得更多的奖励,将用户之间的竞争描述为一种非合作游戏,在博弈中,用户参与者感知策略为每个用户的目标都是最大化自身效益,当所有用户都选择最优策略时,非合作博弈达到稳定状态,即纳什均衡NE,在用户之间的非合作博弈中定义:2
‑1‑
1)给定1)给定是在时的最优响应策略;2
‑1‑
2)当每个的效益满足时,非合作博弈中存在纳什均衡并表示为当总奖励R
t
给定时,非合作博弈中存在纳什均衡,非合作博弈中NE是否存在取决于用户效用函数是策略的凹...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。