【技术实现步骤摘要】
一种基于深度强化学习的车辆群智感知用户招募方法
[0001]本专利技术涉及车辆群智感知领域,具体涉及一种基于深度强化学习的车辆群智感知用户招募方法。
技术背景
[0002]近年来,移动群智感知(Mobile Crowdsensing,MCS)越来越受欢迎,成为感知和收集数据的一个有吸引力的范式。MCS依赖智能手机和可穿戴设备等移动设备的内置传感器和通信功能,把感知得到的数据上传到云服务器中。与传统的传感器网络不同,MCS系统并不需要部署专用的传感器。
[0003]随着车联网的兴起,研究人员发现车辆的内置传感器、通信资源、计算平台、移动性更加符合MCS对参与者的要求,所以诞生了车辆群智感知(Vehicle Crowdsensing,VCS)。VCS一般由任务请求者、云中心服务器和参与车辆组成,VCS主要流程包括:(1)任务请求者向云中心发布任务;(2)云中心服务器向参与车辆发布其收到的任务;(3)参与车辆选择感兴趣的任务,并向云中心提交自己的位置、声誉和对任务的标价(即车辆对任务的报价,一旦车辆完成任务,就能得到的奖励)等信息;(4)云中心服务器根据车辆提交的信息,选择特定车辆完成相关任务;(5)车辆完成任务,并上传任务数据;(6)云中心服务器给与车辆奖励。
[0004]但是车辆的通信和计算资源有限且宝贵,为了让车辆完成任务,系统必须给予一定奖励。目前关于VCS用户招募技术中的道路模型不符合3GPP规定,而且并没有很好的考虑车辆与基站的通信、车辆的声誉和成本、任务预算等因素,实用性较差。在预测车辆行驶时 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,所述的用户招募方法包括一下步骤:S1、构建高速公路下的车联网场景,所构建的场景包括高速公路、若干车辆、通信基站、云中心服务器和任务发布者;S2、建立车辆与基站的通信的信道模型,考虑车辆与基站的位置、天线的增益以及噪声因素;建立车辆的成本和声誉模型以及云中心服务器的效用模型;S3、以最大化任务覆盖率为目标,结合约束条件,建立最优化问题模型;S4、根据最优化问题模型,结合云中心的服务器效用,构建DDPG网络结构,DDPG网络结构包括DDPG网络的输入转态、DDPG奖励函数和DDPG输出动作;S5、根据步骤4的DDPG网络结构,以车辆的信息为输入状态,得到各种状态下的输出动作,并根据奖励函数训练和更新DDPG网络。2.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,在步骤S1中构建高速公路下的车辆群智感知用户招募场景:高速公路长wl千米,lane
n
个车道数量,每个车道宽lane
w
米,其中第i个车道里的车辆数N
i
通过泊松采样得到:上式中的k表示泊松采样得到的车辆数目,强度λ等于高速公路长度比上车辆的平均距离:上式中vS代表车辆的速度;所以车辆车数车辆v
i,j
表示为第i个车道的第j辆车。3.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立车辆与基站通信的信道模型,考虑通信距离、车辆和基站天线增益以及噪声等因素;车辆坐标(x1,y1,z1),基站坐标(x2,y2,z2),故通信距离d通过下式得到:根据通信距离d,由下式得到车辆与基站通信的路径损耗记为pl:pl=128.1+37.6lgd
ꢀꢀꢀ
(4)通过下式计算联合路径损耗,记为combinedPL:combinedPL=
‑
(pl+sD*stdV2I)
ꢀꢀꢀ
(5)上式中,sD是阴影衰弱的服从的对数正太分布,stdV2I是阴影衰弱的标准差;通过下式计算信道增益,记为gain:gain=combinedPL+vaG+baG
‑
bsN
ꢀꢀꢀ
(6)上式中,vaG是车辆天线增益,baG是基站天线增益,bsN是基站噪声;最后,通过下式计算车辆和基站通信的信噪比,记为snr:snr=vtP+gain
‑
bgN
ꢀꢀꢀꢀ
(7)
上式中,vtP是车辆的发送功率,bgN是背景噪声。4.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立车辆的成本、标价和声誉模型,车辆的成本于车辆感知和传输的数据大小有关;对于车辆v
i,j
,其感知成本通过下式计算:cS
i,j
=sL
i,j
*sW
i,j
*udV
i,j
*usP
i,j
ꢀꢀꢀꢀ
(8)上式中,cS
i,j
为感知成本,sL
i,j
是车辆的感知长度,sW
i,j
是车辆的感知宽度,udV
i,j
是单位感知面积所感知得到的数据,usP
i,j
是感知单位数据所需要的价格成本;对于车辆v
i,j
的传输成本通过下式计算:上式中,cT
i,j
是传输成本,utP
i,j
是传输单位数据所需要的价格成本,snr
i,j
是车辆v
i,j
与基站通信的信噪比;对于车辆v
i,j
完成任务的成本通过下式计算:c
i,j
=α*cS
i,j
+β*cT
i,j
ꢀꢀꢀꢀꢀ
(10)上式中,c
i,j
是车辆v
i,j
完成任务的成本,α、β是权重值,均大于零,且α+β=1;根据车辆的成本,通过下式得到车辆的标价:b
i,j
=ga
i,j
*c
i,j
ꢀꢀꢀꢀꢀ
(11)上式中,b
i,j
是标价,ga
i,j
是比例系数;当车辆完成一次任务后会更新其声誉值re,re在[R
min
,R
max
]之间,并被划分为H个等级,即,上式中其中re
i
是车辆i的声誉值,R
min
是最小声誉值,R
max
是最大声誉值,两个相邻声誉值的差;车辆的声誉更新过程建模为一阶马尔科夫过程,声誉值re的H个等级对应马尔科夫过程的H的转态,其状态转移矩阵为:在状态转移矩阵中,p
i,j
表示从第i个转态转变第j个转态的概率;h表示总共有h个声誉值,1≤i≤h,1≤j≤h。5.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立云中心服务器的效用模型,主要考虑任务的预算和招募车辆的成本,把云中心服务器的效用记为u
s
,则有:
在上式中,b
i,j
表示第i个车道的第j辆车对任务的标价,lane
n
是车道数量,N
i
是第i个车道里的车辆数,tB是任务的预算,由任务请求者在向云中心发布任务便提供,x
i,j
是招募方法输出的动作,经过函数f变成0或1,f函数如下:6.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,在步骤S3中,以最大化任务覆盖率为目标,根据招募的车辆,结合约束条件,建立最优化问题:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。