【技术实现步骤摘要】
一种基于深度强化学习的群智感知激励机制方法
[0001]本专利技术涉及专门适用于于行政、贸易、金融、管理、监督或预测目的的数据处理系统或方法的
,特别涉及一种移动群智感知领域的基于深度强化学习的群智感知激励机制方法。
技术介绍
[0002]近年来,随着智能设备(如手机、平板电脑等)感知、计算能力的飞速提升以及无线通信技术的发展,信息采集和共享的方式也在悄然发生变化。作为一种新兴的感知环境、收集数据、提供信息服务的模式,移动群智感知是当前计算机学科的一个研究热点。
[0003]目前移动群智感知也存在一定局限性,其中之一便是参与者收集到的感知数据分布情况与数据请求方提供的目标数据分布之间差异较大,覆盖质量较低。例如数据请求方想收集某城空气质量数据,为了结果具有代表性,需要感知数据的位置均匀分布在该城。而参与者通常集中在商场、饭店等人流密集的地方,郊区工厂等地就人迹罕至。通常采用激励机制,用报酬的方式鼓励参与者从原本所在地进行移动,使参与者的总体位置分布接近感知数据的目标位置分布来解决这一问题。常用的激励策略有:(1)报酬激励,基于博弈论,以给予报酬的方式充分调动参与者参加感知任务的积极性。(2)游戏激励,将感知任务设计成游戏形式,通过完成任务获取积分与排名使参与者获取趣味。(3)社交激励,通过现有社交网络建立参与者之间的信任体系,通过完成感知任务使参与者获得社交关系中他人更多的认可。
[0004]然而传统激励策略计算成本时通常优先考虑的是参与者的静态分布,忽略了参与者移动性对激励成本的影响,因此通常 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述方法包括以下步骤:步骤1:设置激励周期T;步骤2:获取每个激励周期T的初始状态下参与者的移动轨迹;步骤3:基于深度强化学习,以初始状态下参与者的移动轨迹预测参与者当前激励周期内的移动轨迹,获得当前激励周期结束时参与者的预测位置;步骤4:根据当前激励周期结束时参与者的预测位置,获得数据请求方提供的感知数据目标分布,选择合适参与者进行激励;步骤5:计算当前激励周期结束时参与者实际位置分布与感知数据目标分布的相对熵与当前激励周期内需要的激励成本,基于计算结果调整激励周期T。2.根据权利要求1所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤2包括以下步骤:步骤2.1:根据感知区域的大小将感知区域划分成a
×
b的网格系统;步骤2.2:将激励周期T划分成长度为t的时间间隔;步骤2.3:每隔时间t,获取每个参与者当前所处位置的经纬度信息,并转换至a
×
b的网格系统的坐标系中,以坐标(i,j)表示,1≤i≤a,1≤j≤b;步骤2.5:根据坐标信息,得到每个参与者在激励周期T内的移动轨迹。3.根据权利要求1所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述深度强化学习为改进的DDPG算法。4.根据权利要求3所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:初始化改进的DDPG算法中的Critic和Actor两部分神经网络;步骤3.2:初始化记忆库replay buffer;步骤3.3:生成参与者移动轨迹经验数据,存入记忆库replay buffer;步骤3.4:从记忆库replay buffer中随机采取样本数据进行训练;步骤3.5:输出DDPG算法预测参与者下个激励周期的移动轨迹;步骤3.6:得到参与者当前激励周期结束时的预测位置分布。5.根据权利要求4所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3.1中,Critic部分中的神经网络为和Actor部分中的神经网络为μ(s
i
|θ
μ
),对应的Target网络为和μ
′
(s
i
|θ
μ
′
);其中,s
i
代表参与者上一次移动状态,s
i+1
代表下一移动状态,a代表移动方向,θ
μ
,θ
μ
′
分别代表这六个网络的权重参数。6.根据权利要求4所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3.3包括以下步骤:步骤3.3.1:初始化随机噪声N,对训练过程产生扰动;步骤3.3.2:获取参与者当前移动状态s
t
;步骤3.3.3:将s
t
和噪声N放入策略函数,得到下一步移动方向a
t
;步骤3.3.4:执行a
t
,得到奖...
【专利技术属性】
技术研发人员:姚信威,杨啸天,王佐响,张馨戈,齐楚锋,邢伟伟,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。