MCS制造技术

技术编号:39413206 阅读:28 留言:0更新日期:2023-11-19 16:04
本发明专利技术提出一种

【技术实现步骤摘要】
MCS系统中基于TDDS算法的复杂任务在线分配方法


[0001]本专利技术属于信息网络
,具体是一种
MCS
系统中基于
TDDS
算法的复杂任务在线分配方法


技术介绍

[0002]近年来,拥有计算

感知

存储和通信能力的智能终端设备的迅速普及促发了移动群智感知
(mobile crowd sensing,MCS)
技术
[1]的广泛应用

不同于传统的静态传感器网络,
MCS
将移动用户携带的智能设备作为基本感知单元,并通过组建工作群来协作完成大规模数据感知

目前,
MCS
已深入环境监测
[2]、
智慧交通
[3]、
智慧城市
[4]等众多领域

为了完成任务请求者向平台持续提交的感知任务,
MCS
系统需要募集大量的参与者,因此如何执行任务分配来优化系统的群智感知性能显得格外重要...

【技术保护点】

【技术特征摘要】
1.
一种
MCS
系统中基于
TDDS
算法的复杂任务在线分配方法,所述
MCS
系统是移动群智感知系统,
MCS
系统包括感知层

通信层和决策层;感知层中的参与者采集和传输感知数据;通信层中的基站接收覆盖范围内任务发起者的任务请求和传输参与者的感知数据;决策层中的平台求解复杂任务的在线分配策略;
MCS
系统进行复杂任务分配的步骤包括:步骤
1)
任务发起者提交任务给距离最近的基站,基站将之汇报给平台;步骤
2)
平台接收到任务请求后,分配任务给参与者;步骤
3)
参与者执行分配的子任务,再经过基站向平台上传感知数据;步骤
4)
平台分析和处理接收的感知数据,并将结果经过基站交付给任务发起者;其特征是基于
TDDS
算法的复杂任务在线分配方法是用在步骤
2)
中,平台依次接收到任务请求后,先将每个任务划分成多个子任务;再结合区域内所有参与者状态由
DRL
求解出子任务分配策略;最后根据复杂任务分配策略分配子任务给步骤
3)
中的参与者执行;所述步骤
2)
的具体步骤包括:
2.1)
将复杂任务分配问题建模成0‑1整数规划问题;
2.2)
把求解0‑1整数规划问题转化为马尔可夫决策过程;
2.3)
采用孪生延迟深度随机策略梯度
TDDS
算法,通过最大化累计奖励寻找最优分配策略;
TDDS
算法是将孪生延迟深度确定策略梯度
TD3
算法的策略网络扩展为带有注意力机制的多个子策略网络,并使用
Gumbel

Softmax
采样保证各子策略网络的反向传播训练
。2.
根据权利要求1所述的
MCS
系统中基于
TDDS
算法的复杂任务在线分配方法,其特征是步骤
2.1)
中,任务划分方式为:在一个时间窗
t
内,平台依次接收到
I
个任务,其中任意一个任务
i
被划分成
M
i
个子任务,且形成一个子任务集合为了统一任务状态向量的维数,假设每个任务最多可划分成
M
个子任务;若
M
i

M
,则用
M

M
i
个空子任务补全任务分配方式为:当
I
个任务的子任务集合依次分配给
N
个参与者时,子任务分配策略表示成一组分配矩阵其中元素
a
i,m,n
是一个0‑1变量,即
a
i,m,n
=1表示子任务
m
分配给参与者
n
,反之
a
i,m,n
=0表示未分配;此时,任务
i
分配给任意一个参与者
n
的子任务集合为任务完成时延模型为:假设按照
FIFO
规则来处理
I
个任务,即参与者
n
将排在之后;参与者
n
从接收到完成中最后一个子任务的感知工作和传输工作的时间间隔分别表示为和在完成中最后一个子任务的感知工作后,参与者
n
将移动到中第一个子任务的位置开始依次执行中子任务,期间同时进行数据传输;假设参与者
n
的移动速度

感知速度和传输速度分别为和和中第
j
个子任务
u
i,n,j
的大小为
ο
i,n,j
,则执行子任务
u
i,n,j
的移动时延

感知时延和传输时延分别表示为
其中
j
=0时
L
i,n,0
表示中最后一个子任务的平面位置,
j≥1

L
i,n,j
表示中子任务
u
i,n,j
的平面位置;假设中最后一个子任务感知执行后等待数据传输结束的时延为则参与者
n
完成中所有子任务的时延为因为任务
i
的子任务被分配给
N
个参与者并行处理,所以任务
i
的完成时延为分配模型的优化目标为:平台将一个时间窗
t
内复杂任务分配问题转化为最小化
I
个任务的平均完成时延问题
P1P1:P1:C2:a
i,m,n
∈{0,1},1≤i≤I,1≤m≤M,1≤n≤N
其中约束
C1
表示1个子任务只分配给1个参与者,
C2
表示子任务分配的0‑1决策
。3.
根据权利要求2所述的
MCS
系统中基于
TDDS
算法的复杂任务在线分配方法,其特征是步骤
2.2)
中,最优化问题
P1
被转化为马尔科夫决策过程
MDP
,并使用
DRL
以最大化累计奖励求解出最优分配策略;
DRL
的状态空间

动作空间和奖励函数描述如下:状态空间:分配任务
i

MCS
系统状态
s
i
包括任务状态和参与者状态;令子任务
m
的平面位置和大小分别为
L
i,m

ο
i,m
及对应的状态为则任务
i
的状态为令参与者
n
的状态为则
N
个参与者的状态为于是,
MCS
系统状态为动作空间:智能体在状态
s
i
下选择动作
a
i
后转移到下一个状态
s
i+1
;其中分配动作
a
i
将任务
i

M
个子任务分配给
N
个参与者,其对应的动作空间维数为
N
M
;奖励函数:训练
DRL
时需要对所选动作给出优劣评价的即时奖励值
r
i

r(s
i
,a
i
)
;任务分配的目标是最小化
I
个任务的平均完成时延,而
DRL
的目标是最大化长远报酬,则设置奖励函数为其中常数参数
σ1和
σ2将
r
i
控制在便于网络学习的范围内;
依据式
(8)
和式
(9)
,智能体与环境交互过程中由策略
π
生成一条采样轨迹生成一条采样轨迹最大化采样轨迹的期望回报可求解出最优策略其中
γ
为折扣因子;在步骤
2.3)
中,使用
TDDS
算法以不断试错方式与环境交互,进而通过最大化累计奖励寻找最优策略
π
*
。4.
根据权利要求3所述的
MCS
系统中基于
TDDS
算法的复杂任务在线分配方法,其特征是步骤
2.3)
中,
2.3.1)
改进
TD3
算法得到
TDDS
算法,采用
TDDS
算法实现单维动作空间上复杂任务分配;
2.3.2)
优化步骤
2.3.1)
所得
TDDS
算法的策略网络结构,实现多维动作空间上复杂任务分配
。5.
根据权利要...

【专利技术属性】
技术研发人员:张羽王天荆沈航罗小康白光伟
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1