【技术实现步骤摘要】
一种用于多源空间信息众包式采集的任务激励方法
[0001]本专利技术属于全自动化产品领域,涉及一种用于多源空间信息众包式采集的任务激励方法
。
技术介绍
[0002]所谓“空间信息众包式采集”,即把空间信息采集
、
更新的任务交给非组织内的拥有采集设备的人
(
统称采集者
)
,利用其传感器实时检测空间环境信息,将数据上传至云平台,实现空间数据的快速更新
。
在移动互联网和大数据迅速发展的时代,众包是一种有效的收集数据的方式,陆
、
海
、
空
、
天
、
网络等数据分享能够为国防对抗
、
政府决策
、
企业发展和群众生活提供更多的空间信息支持
。
然而,参与信息采集是有成本的,如移动设备的电池使用量
、
时间消耗,可能会阻碍采集者的积极性
。
因此,补偿采集者成本的激励方法至关重要
。
由于每个采集者贡献的感知质量和他们的心理价位未知,很难决定每个人的激励措施
。
若给采集者的奖励过高会浪费预算,而奖励过低可能会鼓励他们以最低的成本提交传感数据,这会导致传感数据的质量不佳
。
为提高信息采集和加工的准确性以及传输的时效性,目前迫切需要通过一种有效的激励机制从而可以大大提高信息采集和加工的准确性以及传输的时效性
。
[0003]在当前的研究中 ...
【技术保护点】
【技术特征摘要】
1.
一种用于多源空间信息众包式采集的任务激励方法,其特征在于:包括以下步骤:获取当前时间众包式采集任务,确定初始当前时间众包式采集任务的初始价格;构建用于表示当前时间任务的
MDP
模型;所述
MDP
模型包括具体包含强化学习的
DQN
网络和时空众包任务执行环境;通过将任务价格限定在正常区间并考虑采集者的心理价位,利用
MDP
模型中定义的奖励值计算回报值,将其作为训练目标;对强化学习利用网络
DQN
进行训练,
DQN
网络以状态观测量为输入,以动作为输出,通过输出动作与时空众包任务执行环境的不断交互,沿途收取奖励值,然后更新当前网络动作策略,最终使得奖励之和最大,训练过程中策略梯度法与随机策略一起使用,收敛后每个状态对应的最有利动作的概率将最高,从而
DQN
网络将始终采取该动作;
DQN
网络根据当前的环境和任务特征,不断调整定价公式中的影响因子,以实现最优的决策策略;将当前时间众包式采集任务及初始当前时间众包式采集任务的初始价格输入到训练好的
DQN
网络中,实现采集者对分配后当前时间任务进行采集
。2.
根据权利要求1所述的一种用于多源空间信息众包式采集的任务激励方法,其特征在于:该方法应用在时空众包的环境下
。3.
根据权利要求2所述的一种用于多源空间信息众包式采集的任务激励方法,其特征在于:所述众包环境中存在采集者和任务节点;所述采集者用一个四元组
w
=<
id,l
w
,k
w
,r
w
>描述,其中
id
表示采集者的编号;
l
w
表示采集者位置;
r
w
表示可接任务半径,当任务在采集者的可接任务半径内时,被采集者查看到;
k
w
表示价格随等待时间的折扣系数;所述众包式采集任务用一个五元组
t
=<
ori
t
,des
t
,s
t
,e
t
,price
t
>描述,其中
ori
t
表示任务的开始位置,
des
t
表示任务的结束位置,
s
t
表示任务开始的时间,
e
t
表示任务的截止时间;
price
t
表示任务的价格,定义当前时间为
time
,当
s
t
≤time≤e
t
,称该任务为可用任务,被周围的采集者看到,属于可估价任务
。4.
根据权利要求1所述的一种用于多源空间信息众包式采集的任务激励方法,其特征在于:所述强化学习使用网络为两个隐藏层和一个全连接层构成的
DQN
网络
。5.
根据权利要求1所述的一种用于多源空间信息众包式采集的任务激励方法,其特征在于:还包括采用所述强化学习使用网络调节估价公式中的参数来得出价格,每个区域的任务和采集者的数量比是影响价格的重要因素,估价公式如下所示:其中:
price(t
i
)
为任务的价格,
TW
ratio
(t
i
)
是任务采集者数量比,
λ
为价格缩放因子
。6.
根据权利要求1所述的一种用于多源空间信息众包式采集的任务激励方法,其特征在于:所述
MDP
模型包括:状态:将当前时间众包式采集任务的真实地理位置的经纬度用
lon
i
、lat
i
表示
、
经纬度经过网格化后的位置坐标用
x
i
、y
i
表示,该任务附近的供需比
TW
ratio
(t
i...
【专利技术属性】
技术研发人员:陈荣,张志康,汪桐,刘言哲,温昕彤,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。