当前位置: 首页 > 专利查询>东南大学专利>正文

一种使用强化学习获得无人机收集数据轨迹的方法技术

技术编号:30020327 阅读:24 留言:0更新日期:2021-09-11 06:39
本发明专利技术公开了一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及待传输数据量和能量限制,采用Actor

【技术实现步骤摘要】
一种使用强化学习获得无人机收集数据轨迹的方法


[0001]本专利技术属于移动通信
,尤其涉及一种使用强化学习获得无人机收集数据轨迹的方法。

技术介绍

[0002]随着物联网产业的发展,数据收集成为物联网功能实现的重要基础。虽然许多通信协议和路由算法被提出以实现在物联网和无线传感器网络中的数据收集任务,但是由于传感器节点的移动性以及自然灾害发生时无法保证网络的连通性,这些通信协议和路由算法很难很好地实现既定功能。

技术实现思路

[0003]本专利技术目的在于提供一种使用强化学习获得无人机收集数据轨迹的方法,以解决传感器节点的移动性以及自然灾害发生时无法保证网络的连通性,这些通信协议和路由算法很难很好地实现既定功能的技术问题。
[0004]为解决上述技术问题,本专利技术的具体技术方案如下:
[0005]一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及各地面节点待传输数据量和能量限制,考虑各地面节点本身待收集数据量不同和各自能量限制,采用Actor

Critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹,包括以下步骤:
[0006]步骤1、将待仿真区域按步长划分为网格,定义状态空间S,动作空间A以及及时奖励r;
[0007]步骤2、使用参数为ω的Critic神经网络表示状态价值函数Q
ω
(s,a),与Critic神经网络相同网络结构的目标Critic神经网络参数为ω<br/>‑
;使用参数θ为的Actor神经网络表示策略π
θ
(a|s),用来表示在状态s下选择动作a的概率,与Actor神经网络相同网络结构的目标Actor神经网络参数为θ


[0008]步骤3、随机初始化Critic神经网络参数ω和Actor神经网络参数θ,
[0009]初始化Critic目标神经网络参数ω

=ω,Actor神经网络参数θ

=θ;设置经验回放池容量为D,用于存储&lt;s,a,r,s
t+1
&gt;,其中s
t+1
为下一个状态,更新过程取样数量为B;
[0010]步骤4、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制M,初始化状态为起始状态s1:
[0011]步骤5、对于单个回合内,t从1递增至限制T:
[0012]步骤6、根据当前Actor神经网络策略a
t
=π
θ
(a|s)选择动作获得即时奖励r
t
以及下一个状态s
t+1

[0013]步骤7、存储状态转移记录&lt;s
t
,a
t
,r
t
,s
t+1
&gt;到经验回放池中;
[0014]步骤8、从经验回放池中随机选择B条记录(s
i
,a
i
,r
i
,s
i+1
),分别表示当前状态s
i
,所执行动作a
i
,即时奖励r
i
,下一状态s
i+1

[0015]步骤9、计算Actor更新目标其中γ表示折扣率,表示根据当前目标Actor神经网络参数θ

执行的策略,表示根据当前目标Critic神经网络参数ω

获得的状态价值函数;
[0016]步骤10、通过最小化损失函数更新Critic神经网络参数ω;
[0017]步骤11、计算策略梯度
[0018]采用随机梯度下降法更新Actor神经网络参数θ;
[0019]步骤12、每隔一段时间更新目标Critic神经网络参数ω

为τω+(1

τ)ω

,更新目标Actor神经网络参数θ

为τθ+(1

τ)θ

,其中τ表示更新系数,取值为0.01。
[0020]进一步的,基于策略的Actor神经网络用来在每一步m选择动作a(m),基于价值的Critic神经网络,用来评估在状态s(m)执行动作a(m)的价值函数V(s(m)),Actor根据V(s(m))不断调整和优化策略π(a(m)|s(m))。
[0021]进一步的,Actor神经网络和Critic神经网络均由多层前馈神经网络组成。
[0022]进一步的,Actor最后一层节点数对应动作数,输出时使用softmax函数将动作选择转换为标准化百分比,Critic最后一层为一个节点,代表输入状态的状态估计值。
[0023]进一步的,Actor神经网络接收状态向量并选择动作,Critic神经网络接收状态向量并估计状态值,状态值指当前策略的长期累计奖励。
[0024]进一步的,训练过程中,Critic神经网络对状态值的估计被用来通过时序差分方式更新Actor对动作的选择策略。
[0025]本专利技术的一种使用强化学习获得无人机收集数据轨迹的方法,具有以下优点:该方法在最小化收集数据任务完成时间的目标下充分考虑了各地面节点本身待收集数据量不同和各自能量限制。在解法上通过将连续时间无人机轨迹设计问题转化为离散时间马尔科夫决策过程,基于Actor

Critic算法获得无人机在每个状态下的最佳收集数据决策和最佳运动决策。本专利技术所提算法设计的无人机辅助收集地面节点数据轨迹可以在保证收集完所有节点待传输数据量并满足各地面节点能量限制的前提下显著减少收集时间。
具体实施方式
[0026]为了更好地了解本专利技术的目的、结构及功能,对本专利技术一种使用强化学习获得无人机收集数据轨迹的方法做进一步详细的描述。
[0027]考虑无线通信系统,无人机被用来在飞行过程中收集地面N个节点的数据,地面节点(GU)集合无人机以固定高度H在空中从起点飞向终点飞向终点表示实数。
[0028]节点n的水平坐标可表示为(表示实数),n∈N。定义随时间变化的无人机轨迹表示为:
[0029]U(t)∈R2×1,0≤t≤T;
[0030]T表示完成任务所需的时间。因此可得起始点限制U(0)和终点限制U(T),即无人机从起点S飞向终点E:
[0031]U(0)=S,U(T)=E
[0032]无人机在飞行过程中的最大速度用v
max
表示,飞行过程中的速度限制可表示为:
[0033][0034]这里,||
·
||表示欧几里德范数,Δ表示无限小的时间间隔,||U(t+Δ)

U(t)||表示无限小时间Δ内无人机位置变化量。以下详细介绍本专利技术中解决无人机收集数据的系统模型:
...

【技术保护点】

【技术特征摘要】
1.一种使用强化学习获得无人机收集数据轨迹的方法,输入无人机起始位置,结束位置,地面各节点位置以及各地面节点待传输数据量和能量限制,考虑各地面节点本身待收集数据量不同和各自能量限制,采用Actor

Critic算法设计以最小化收集数据任务完成时间为目标的无人机收集数据轨迹,其特征在于,包括以下步骤:步骤1、将待仿真区域按步长划分为网格,定义状态空间S,动作空间A以及及时奖励r;步骤2、使用参数为ω的Critic神经网络表示状态价值函数Q
ω
(s,a),与Critic神经网络相同网络结构的目标Critic神经网络参数为ω

;使用参数θ为的Actor神经网络表示策略π
θ
(a|s),用来表示在状态s下选择动作a的概率,与Actor神经网络相同网络结构的目标Actor神经网络参数为θ

;步骤3、随机初始化Critic神经网络参数ω和Actor神经网络参数θ,初始化Critic目标神经网络参数ω

=ω,Actor神经网络参数θ

=θ;设置经验回放池容量为D,用于存储&lt;s,a,r,s
t+1
&gt;,其中s
t+1
为下一个状态,更新过程取样数量为B;步骤4、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制M,初始化状态为起始状态s1:步骤5、对于单个回合内,t从1递增至限制T:步骤6、根据当前Actor神经网络策略a
t
=π
θ
(a|s)选择动作获得即时奖励r
t
以及下一个状态s
t+1
;步骤7、存储状态转移记录&lt;s
t
,a
t
,r
t
,s
t+1
&gt;到经验回放池中;步骤8、从经验回放池中随机选择B条记录(s
i
,a
i
,r
i
,s
i+1
...

【专利技术属性】
技术研发人员:刘楠慕红伟潘志文尤肖虎
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1