一种基于深度强化学习的群智感知激励机制方法技术

技术编号:32209661 阅读:14 留言:0更新日期:2022-02-09 17:15
本发明专利技术涉及一种基于深度强化学习的群智感知激励机制方法,获取参与者位置和移动轨迹信息,将参与者移动过程建模为马尔可夫决策过程,采用深度强化学习预测其在下一个激励周期内的移动轨迹,预测参与者在下一个激励周期结束时的位置分布,通过计算参与者的预测位置分布与数据请求方提供的感知数据目标分布的相对熵,选择大于相对熵阈值区域内的参与者进行激励。本发明专利技术避免在同一时间段内对所有参与者进行激励、对同一个参与者在所有激励周期内都进行激励,合理的激励机制解决群智感知参与者收集到的感知数据分布情况与数据请求方提供的目标数据分布之间差异较大、覆盖质量较低的问题;可被广泛应用于移动群智感知领域,降低激励参与者的成本。激励参与者的成本。激励参与者的成本。

【技术实现步骤摘要】
一种基于深度强化学习的群智感知激励机制方法


[0001]本专利技术涉及专门适用于于行政、贸易、金融、管理、监督或预测目的的数据处理系统或方法的
,特别涉及一种移动群智感知领域的基于深度强化学习的群智感知激励机制方法。

技术介绍

[0002]近年来,随着智能设备(如手机、平板电脑等)感知、计算能力的飞速提升以及无线通信技术的发展,信息采集和共享的方式也在悄然发生变化。作为一种新兴的感知环境、收集数据、提供信息服务的模式,移动群智感知是当前计算机学科的一个研究热点。
[0003]目前移动群智感知也存在一定局限性,其中之一便是参与者收集到的感知数据分布情况与数据请求方提供的目标数据分布之间差异较大,覆盖质量较低。例如数据请求方想收集某城空气质量数据,为了结果具有代表性,需要感知数据的位置均匀分布在该城。而参与者通常集中在商场、饭店等人流密集的地方,郊区工厂等地就人迹罕至。通常采用激励机制,用报酬的方式鼓励参与者从原本所在地进行移动,使参与者的总体位置分布接近感知数据的目标位置分布来解决这一问题。常用的激励策略有:(1)报酬激励,基于博弈论,以给予报酬的方式充分调动参与者参加感知任务的积极性。(2)游戏激励,将感知任务设计成游戏形式,通过完成任务获取积分与排名使参与者获取趣味。(3)社交激励,通过现有社交网络建立参与者之间的信任体系,通过完成感知任务使参与者获得社交关系中他人更多的认可。
[0004]然而传统激励策略计算成本时通常优先考虑的是参与者的静态分布,忽略了参与者移动性对激励成本的影响,因此通常是面向整个感知过程进行激励的,在激励之前就会设置一个较高的预算。当参与者数量呈几何级增长时,成本就会飙升并且难以控制。

技术实现思路

[0005]本专利技术解决了现有技术中,传统移动群智感知参与者收集到的感知数据分布与数据请求方提供的目标数据分布差异较大,覆盖质量较低,而一般的激励机制仅考虑参与者静态分布,忽视参与者移动性对激励成本的影响,导致激励成本飙升的问题,提出了一种基于深度强化学习的群智感知激励机制,以改进的DDPG算法预测参与者移动轨迹来决定是否对其进行激励,从而有效、合理降低激励成本。
[0006]本专利技术所采用的技术方案是,一种基于深度强化学习的群智感知激励机制方法,所述方法包括以下步骤:
[0007]步骤1:设置激励周期T;
[0008]步骤2:获取每个激励周期T的初始状态下参与者的移动轨迹;
[0009]步骤3:基于深度强化学习,以初始状态下参与者的移动轨迹预测参与者当前激励周期内的移动轨迹,获得当前激励周期结束时参与者的预测位置;
[0010]步骤4:根据当前激励周期结束时参与者的预测位置,获得数据请求方提供的感知
数据目标分布,选择合适参与者进行激励;
[0011]步骤5:计算当前激励周期结束时参与者实际位置分布与感知数据目标分布的相对熵与当前激励周期内需要的激励成本,基于计算结果调整激励周期T。
[0012]优选地,所述步骤2包括以下步骤:
[0013]步骤2.1:根据感知区域的大小将感知区域划分成a
×
b的网格系统;
[0014]步骤2.2:将激励周期T划分成长度为t的时间间隔;
[0015]步骤2.3:每隔时间t,获取每个参与者当前所处位置的经纬度信息,并转换至a
×
b的网格系统的坐标系中,以坐标(i,j)表示,1≤i≤a,1≤j≤b;
[0016]步骤2.5:根据坐标信息,得到每个参与者在激励周期T内的移动轨迹。
[0017]优选地,所述深度强化学习为改进的DDPG算法。
[0018]优选地,所述步骤3包括以下步骤:
[0019]步骤3.1:初始化改进的DDPG算法中的Critic和Actor两部分神经网络;
[0020]步骤3.2:初始化记忆库replay buffer;
[0021]步骤3.3:生成参与者移动轨迹经验数据,存入记忆库replay buffer;
[0022]步骤3.4:从记忆库replay buffer中随机采取样本数据进行训练;
[0023]步骤3.5:输出算法预测参与者下个激励周期的移动轨迹;
[0024]步骤3.6:得到参与者当前激励周期结束时的预测位置分布。
[0025]优选地,所述步骤3.1中,Critic部分中的神经网络为和Actor部分中的神经网络为μ(s
i

μ
),对应的Target网络为和μ

(s
i

μ

);其中,s
i
代表参与者上一次移动状态,s
i+1
代表下一移动状态,a代表移动方向,θ
μ
,θ
μ

分别代表这六个网络的权重参数。
[0026]优选地,所述步骤3.3包括以下步骤:
[0027]步骤3.3.1:初始化随机噪声N,对训练过程产生扰动;
[0028]步骤3.3.2:获取参与者当前移动状态s
t

[0029]步骤3.3.3:将s
t
和噪声N放入策略函数,得到下一步移动方向a
t

[0030]步骤3.3.4:执行a
t
,得到奖励r
t
和下一步参与者移动状态s
t+1

[0031]步骤3.3.5:将(s
t
,a
t
,r
t
,s
t+1
)存入记忆库replay buffer。
[0032]优选地,所述步骤3.3.3中,策略函数为a
t
=μ(s
t

μ
)+N。
[0033]优选地,所述步骤3.4包括以下步骤:
[0034]步骤3.4.1:从记忆库replay buffer中随机抽取数据(s
i
,a
i
,r
i
,s
i+1
);
[0035]步骤3.4.2:分别将Q1′
和Q2′
的参数代入贝尔曼方程,处理所述抽取数据,选择值较小的结果作为训练数据标签值,得到训练数据标签值y
i
=r
i
+γQ

(s
i+1
,μ

(s
i+1

μ

)|θ
Q

)
min
,其中,r
i
代表参与者到达特定移动状态的奖励值,γ代表学习率,Q

(s
i+1
,μ

(s
i+1

μ

)|θ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述方法包括以下步骤:步骤1:设置激励周期T;步骤2:获取每个激励周期T的初始状态下参与者的移动轨迹;步骤3:基于深度强化学习,以初始状态下参与者的移动轨迹预测参与者当前激励周期内的移动轨迹,获得当前激励周期结束时参与者的预测位置;步骤4:根据当前激励周期结束时参与者的预测位置,获得数据请求方提供的感知数据目标分布,选择合适参与者进行激励;步骤5:计算当前激励周期结束时参与者实际位置分布与感知数据目标分布的相对熵与当前激励周期内需要的激励成本,基于计算结果调整激励周期T。2.根据权利要求1所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤2包括以下步骤:步骤2.1:根据感知区域的大小将感知区域划分成a
×
b的网格系统;步骤2.2:将激励周期T划分成长度为t的时间间隔;步骤2.3:每隔时间t,获取每个参与者当前所处位置的经纬度信息,并转换至a
×
b的网格系统的坐标系中,以坐标(i,j)表示,1≤i≤a,1≤j≤b;步骤2.5:根据坐标信息,得到每个参与者在激励周期T内的移动轨迹。3.根据权利要求1所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述深度强化学习为改进的DDPG算法。4.根据权利要求3所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:初始化改进的DDPG算法中的Critic和Actor两部分神经网络;步骤3.2:初始化记忆库replay buffer;步骤3.3:生成参与者移动轨迹经验数据,存入记忆库replay buffer;步骤3.4:从记忆库replay buffer中随机采取样本数据进行训练;步骤3.5:输出DDPG算法预测参与者下个激励周期的移动轨迹;步骤3.6:得到参与者当前激励周期结束时的预测位置分布。5.根据权利要求4所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3.1中,Critic部分中的神经网络为和Actor部分中的神经网络为μ(s
i

μ
),对应的Target网络为和μ

(s
i

μ

);其中,s
i
代表参与者上一次移动状态,s
i+1
代表下一移动状态,a代表移动方向,θ
μ
,θ
μ

分别代表这六个网络的权重参数。6.根据权利要求4所述的一种基于深度强化学习的群智感知激励机制方法,其特征在于:所述步骤3.3包括以下步骤:步骤3.3.1:初始化随机噪声N,对训练过程产生扰动;步骤3.3.2:获取参与者当前移动状态s
t
;步骤3.3.3:将s
t
和噪声N放入策略函数,得到下一步移动方向a
t
;步骤3.3.4:执行a
t
,得到奖...

【专利技术属性】
技术研发人员:姚信威杨啸天王佐响张馨戈齐楚锋邢伟伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1