一种基于深度强化学习的车辆群智感知用户招募方法技术

技术编号:37960046 阅读:20 留言:0更新日期:2023-06-30 09:34
本发明专利技术公开了一种基于深度强化学习的车辆群智感知用户招募方法,具体步骤如下:构建高速公路下的车联网场景,所构建的场景包括一条高速公路、若干车辆、通信基站、云中心服务器和任务发布者;建立车辆与基站的通信的信道模型、车辆的成本和声誉等模型以及云中心服务器的效用模型;以最大化任务覆盖率为目标,建立最优化问题;设计DDPG的输入转态、奖励函数和输出动作;以车辆的信息为输入状态,得到各种状态下的输出动作,并根据奖励函数训练和更新神经网络。本发明专利技术考虑车辆与基站的通信、车辆的声誉和成本和任务的预算,具有实际场景的实用性,并有较高的任务覆盖率;定义DDPG的输入状态信息,并设计有效的奖励函数。并设计有效的奖励函数。并设计有效的奖励函数。

【技术实现步骤摘要】
一种基于深度强化学习的车辆群智感知用户招募方法


[0001]本专利技术涉及车辆群智感知领域,具体涉及一种基于深度强化学习的车辆群智感知用户招募方法。
技术背景
[0002]近年来,移动群智感知(Mobile Crowdsensing,MCS)越来越受欢迎,成为感知和收集数据的一个有吸引力的范式。MCS依赖智能手机和可穿戴设备等移动设备的内置传感器和通信功能,把感知得到的数据上传到云服务器中。与传统的传感器网络不同,MCS系统并不需要部署专用的传感器。
[0003]随着车联网的兴起,研究人员发现车辆的内置传感器、通信资源、计算平台、移动性更加符合MCS对参与者的要求,所以诞生了车辆群智感知(Vehicle Crowdsensing,VCS)。VCS一般由任务请求者、云中心服务器和参与车辆组成,VCS主要流程包括:(1)任务请求者向云中心发布任务;(2)云中心服务器向参与车辆发布其收到的任务;(3)参与车辆选择感兴趣的任务,并向云中心提交自己的位置、声誉和对任务的标价(即车辆对任务的报价,一旦车辆完成任务,就能得到的奖励)等信息;(4)云中心服务器根据车辆提交的信息,选择特定车辆完成相关任务;(5)车辆完成任务,并上传任务数据;(6)云中心服务器给与车辆奖励。
[0004]但是车辆的通信和计算资源有限且宝贵,为了让车辆完成任务,系统必须给予一定奖励。目前关于VCS用户招募技术中的道路模型不符合3GPP规定,而且并没有很好的考虑车辆与基站的通信、车辆的声誉和成本、任务预算等因素,实用性较差。在预测车辆行驶时间的算法(Timeliness

Aware_Incentive_Mechanism_for_Vehicular_Crowdsourcing_in_Smar t_Cities)中,同时考虑到任务预算和车辆成本,但是没有考虑的车辆与基站的通信和车辆声誉,同时其道路模型也不符合3GPP规定,实用性较差。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术的缺陷,提出一个新的车辆群智感知用户招募方法,综合考虑车辆与基站的通信、车辆的声誉和成本、任务预算等因素,最大化任务覆盖率的同时有较高的云中心服务器效用。
[0006]本专利技术至少通过如下技术方案之一实现。
[0007]一种基于深度强化学习的车辆群智感知用户招募方法,所述的用户招募方法包括一下步骤:
[0008]S1、构建高速公路下的车联网场景,所构建的场景包括高速公路、若干车辆、通信基站、云中心服务器和任务发布者;
[0009]S2、建立车辆与基站的通信的信道模型,考虑车辆与基站的位置、天线的增益以及噪声因素;建立车辆的成本和声誉模型以及云中心服务器的效用模型;
[0010]S3、以最大化任务覆盖率为目标,结合约束条件,建立最优化问题模型;
[0011]S4、根据最优化问题模型,结合云中心的服务器效用,构建DDPG网络结构,DDPG网络结构包括DDPG网络的输入转态、DDPG奖励函数和DDPG输出动作;
[0012]S5、根据步骤4的DDPG网络结构,以车辆的信息为输入状态,得到各种状态下的输出动作,并根据奖励函数训练和更新DDPG网络。
[0013]进一步地,在步骤S1中构建高速公路下的车辆群智感知用户招募场景:高速公路长wl千米,lane
n
个车道数量,每个车道宽lane
w
米,其中第i个车道里的车辆数N
i
通过泊松采样得到:
[0014][0015]上式中的k表示泊松采样得到的车辆数目,强度λ等于高速公路长度比上车辆的平均距离:
[0016][0017]上式中vS代表车辆的速度;
[0018]所以车辆车数车辆v
i,j
表示为第i个车道的第j辆车。
[0019]进一步地,建立车辆与基站通信的信道模型,考虑通信距离、车辆和基站天线增益以及噪声等因素;车辆坐标(x1,y1,z1),基站坐标(x2,y2,z2),故通信距离d通过下式得到:
[0020][0021]根据通信距离d,由下式得到车辆与基站通信的路径损耗记为pl:
[0022]pl=128.1+37.6lgd
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0023]通过下式计算联合路径损耗,记为combinedPL:
[0024]combinedPL=

(pl+sD*stdV2I)
ꢀꢀꢀꢀꢀ
(5)
[0025]上式中,sD是阴影衰弱的服从的对数正太分布,stdV2I是阴影衰弱的标准差;
[0026]通过下式计算信道增益,记为gain:
[0027]gain=combinedPL+vaG+baG

bsN
ꢀꢀꢀ
(6)
[0028]上式中,vaG是车辆天线增益,baG是基站天线增益,bsN是基站噪声;
[0029]最后,通过下式计算车辆和基站通信的信噪比,记为snr:
[0030]snr=vtP+gain

bgN
ꢀꢀꢀ
(7)
[0031]上式中,vtP是车辆的发送功率,bgN是背景噪声。
[0032]进一步地,建立车辆的成本、标价和声誉模型,车辆的成本于车辆感知和传输的数据大小有关;
[0033]对于车辆v
i,j
,其感知成本通过下式计算:
[0034]cS
i,j
=sL
i,j
*sW
i,j
*udV
i,j
*usP
i,j
ꢀꢀꢀꢀꢀ
(8)
[0035]上式中,cS
i,j
为感知成本,sL
i,j
是车辆的感知长度,sW
i,j
是车辆的感知宽度,udV
i,j
是单位感知面积所感知得到的数据,usP
i,j
是感知单位数据所需要的价格成本;
[0036]对于车辆v
i,j
的传输成本通过下式计算:
[0037][0038]上式中,cT
i,j
是传输成本,utP
i,j
是传输单位数据所需要的价格成本,snr
i,j
是车辆v
i,j
与基站通信的信噪比;
[0039]对于车辆v
i,j
完成任务的成本通过下式计算:
[0040]c
i,j
=α*cS
i,j
+β*cT
i,j
ꢀꢀꢀꢀ
(10)
[0041]上式中,c
i,j
是车辆v
i,j
完成任务的成本,α、β是权重值,均大于零,且α+β=1;
[0042]根据车辆的成本,通过下式得到车辆的标价:
[0043]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,所述的用户招募方法包括一下步骤:S1、构建高速公路下的车联网场景,所构建的场景包括高速公路、若干车辆、通信基站、云中心服务器和任务发布者;S2、建立车辆与基站的通信的信道模型,考虑车辆与基站的位置、天线的增益以及噪声因素;建立车辆的成本和声誉模型以及云中心服务器的效用模型;S3、以最大化任务覆盖率为目标,结合约束条件,建立最优化问题模型;S4、根据最优化问题模型,结合云中心的服务器效用,构建DDPG网络结构,DDPG网络结构包括DDPG网络的输入转态、DDPG奖励函数和DDPG输出动作;S5、根据步骤4的DDPG网络结构,以车辆的信息为输入状态,得到各种状态下的输出动作,并根据奖励函数训练和更新DDPG网络。2.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,在步骤S1中构建高速公路下的车辆群智感知用户招募场景:高速公路长wl千米,lane
n
个车道数量,每个车道宽lane
w
米,其中第i个车道里的车辆数N
i
通过泊松采样得到:上式中的k表示泊松采样得到的车辆数目,强度λ等于高速公路长度比上车辆的平均距离:上式中vS代表车辆的速度;所以车辆车数车辆v
i,j
表示为第i个车道的第j辆车。3.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立车辆与基站通信的信道模型,考虑通信距离、车辆和基站天线增益以及噪声等因素;车辆坐标(x1,y1,z1),基站坐标(x2,y2,z2),故通信距离d通过下式得到:根据通信距离d,由下式得到车辆与基站通信的路径损耗记为pl:pl=128.1+37.6lgd
ꢀꢀꢀ
(4)通过下式计算联合路径损耗,记为combinedPL:combinedPL=

(pl+sD*stdV2I)
ꢀꢀꢀ
(5)上式中,sD是阴影衰弱的服从的对数正太分布,stdV2I是阴影衰弱的标准差;通过下式计算信道增益,记为gain:gain=combinedPL+vaG+baG

bsN
ꢀꢀꢀ
(6)上式中,vaG是车辆天线增益,baG是基站天线增益,bsN是基站噪声;最后,通过下式计算车辆和基站通信的信噪比,记为snr:snr=vtP+gain

bgN
ꢀꢀꢀꢀ
(7)
上式中,vtP是车辆的发送功率,bgN是背景噪声。4.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立车辆的成本、标价和声誉模型,车辆的成本于车辆感知和传输的数据大小有关;对于车辆v
i,j
,其感知成本通过下式计算:cS
i,j
=sL
i,j
*sW
i,j
*udV
i,j
*usP
i,j
ꢀꢀꢀꢀ
(8)上式中,cS
i,j
为感知成本,sL
i,j
是车辆的感知长度,sW
i,j
是车辆的感知宽度,udV
i,j
是单位感知面积所感知得到的数据,usP
i,j
是感知单位数据所需要的价格成本;对于车辆v
i,j
的传输成本通过下式计算:上式中,cT
i,j
是传输成本,utP
i,j
是传输单位数据所需要的价格成本,snr
i,j
是车辆v
i,j
与基站通信的信噪比;对于车辆v
i,j
完成任务的成本通过下式计算:c
i,j
=α*cS
i,j
+β*cT
i,j
ꢀꢀꢀꢀꢀ
(10)上式中,c
i,j
是车辆v
i,j
完成任务的成本,α、β是权重值,均大于零,且α+β=1;根据车辆的成本,通过下式得到车辆的标价:b
i,j
=ga
i,j
*c
i,j
ꢀꢀꢀꢀꢀ
(11)上式中,b
i,j
是标价,ga
i,j
是比例系数;当车辆完成一次任务后会更新其声誉值re,re在[R
min
,R
max
]之间,并被划分为H个等级,即,上式中其中re
i
是车辆i的声誉值,R
min
是最小声誉值,R
max
是最大声誉值,两个相邻声誉值的差;车辆的声誉更新过程建模为一阶马尔科夫过程,声誉值re的H个等级对应马尔科夫过程的H的转态,其状态转移矩阵为:在状态转移矩阵中,p
i,j
表示从第i个转态转变第j个转态的概率;h表示总共有h个声誉值,1≤i≤h,1≤j≤h。5.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,建立云中心服务器的效用模型,主要考虑任务的预算和招募车辆的成本,把云中心服务器的效用记为u
s
,则有:
在上式中,b
i,j
表示第i个车道的第j辆车对任务的标价,lane
n
是车道数量,N
i
是第i个车道里的车辆数,tB是任务的预算,由任务请求者在向云中心发布任务便提供,x
i,j
是招募方法输出的动作,经过函数f变成0或1,f函数如下:6.根据权利要求1所述的一种基于深度强化学习的车辆群智感知用户招募方法,其特征在于,在步骤S3中,以最大化任务覆盖率为目标,根据招募的车辆,结合约束条件,建立最优化问题:...

【专利技术属性】
技术研发人员:胡斌杰吴敏
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1