一种基于Q学习的能量受限物联网数据采集和融合方法技术

技术编号:38223012 阅读:18 留言:0更新日期:2023-07-25 17:54
本发明专利技术公开一种基于Q学习的能量受限物联网数据采集和融合方法,属于利用计算机模型优化无人机群数据采集能耗的技术领域。本发明专利技术针对无人机群的碰撞避免、飞行角度变化和节点距离约束,将无人机能耗问题转化为马尔可夫决策过程,应用强化学习算法求解无人机路径决策问题:将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励,使无人机群协同访问所有节点,并有效降低了能耗。此外,在无人机群任务完成后,动态选择距离基站最近的无人机作为中继无人机,中继无人机将其他无人机采集的数据统一传输到基站,从而降低了无人机群的总体飞行能耗。耗。耗。

【技术实现步骤摘要】
一种基于Q学习的能量受限物联网数据采集和融合方法


[0001]本专利技术公开一种基于Q学习的能量受限物联网数据采集和融合方法,属于利用计算机模型优化无人机群数据采集能耗的


技术介绍

[0002]在农业生产区部署无线传感器网络实时监测影响作物生长的因素,利用无人机的高机动性、动态部署等特点,对传感器网络中节点的实时数据收集,可以及时发现问题并采取相应措施,保证农业生产的正常进行。随着农业的机械化、科学化、集约化发展,农业生产区规模不断扩大,能量受限的单架无人机已无法有效应对大量节点的数据收集任务。合理调度无人机群实现协同数据收集,是解决上述问题的有效途径,具有重要的研究价值和实际应用意义。
[0003]然而,由于无人机群携带的电池能量有限,传感器节点的数据时效性较低,任务执行时间过长可能导致无人机群无法访问所有传感器节点或者数据产生较大误差。同时,多个无人机在同一区域内飞行存在碰撞风险。因此,在大规模农场环境下,优化无人机群的飞行路径,以减少能量消耗和碰撞,成为无人机群协同数据收集亟需解决的问题之一。
[0004]在实际应用场景下,无人机的能耗高低直接决定了数据收集任务的完成率。无人机能耗由数据传输能耗和运动能耗两部分组成。由于运动能耗远大于数据传输能耗,所以使用优化方法规划无人机的飞行路径可以有效减小总能耗,从而提高任务的完成率。
[0005]为此中国专利文献:CN 110958680 A公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括:采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值。本专利文献采用分布式多智能体深度强化学方法,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
[0006]中国专利文献:CN 112672307 A涉及一种基于Q学习的无人机辅助数据收集系统及方法,其系统包括:基站;无人机;地面感知区域,分割为数个区块;无线传感器网络,包括布设于地面感知区域的多个无线传感器节点,每一区块最多包含一个无线传感器节点;无线传感器节点用于实时感知环境并生成数据包;无线数据收发器,搭载于无人机上,无线数据收发器与无线传感器节点交互,以获取数据包;数据处理器包括数据处理模块和Q学习模块,数据处理模块用于对数据包进行数据处理,以得到基站所需的感知数据和Q学习模块所需的无线传感器节点的信息年龄;Q学习模块用于根据信息年龄动态调整Q学习算法,以确定无人机的飞行动作。该文献能快速高效地收集无线传感器网络的数据。
[0007]中国专利文献:CN 114339936 A基于Q学习的飞行器自组织网络优化链路状态路
由机制,该机制基于节点亲密度、链路质量和剩余能量建立奖励函数计算奖励值,节点根据环境反馈的奖励值对该节点选择下一跳节点的策略进行调整,以减少数据传输的延迟;根据节点移动感知过程计算决定Q值更新快慢的学习速率参数,以保证数据的实时性;利用奖励函数和学习速率构建Q学习优化函数计算下一跳节点的Q值,选择Q值最大的下一跳节点作为转发节点,以提高网络的生存期。该机制利用Q学习算法选择转发节点,能够适用于拓扑结构高度变化的飞行器自组织网络。仿真结果表明,该文献提出的Q

OLSR机制相比于OLSR和QMR在端到端延迟、包投递率和能量消耗方面均有提升。
[0008]技术文献《基于Q学习无人机辅WSN数据采集轨迹规划》公开于《计算机工程》2021年4月第47卷第4期。技术文献《基于Q学习的无人机航迹规划》公开于北京航空航天大学。
[0009]针对现有技术存在问题如下:
[0010]1、现有技术提出算法中如果神经网络迭代次数较少,经验池中经验不足,很难对无人机的飞行巡航进行优化;迭代次数增加后,会增加算法运行时间,导致消耗更多的无人机能耗。
[0011]2、由于单个无人机携带电池能量有限,不适用于大规模物联网网络。
[0012]3、物联网节点携带电池电量有限,节点之间数据传输会减少节点的使用寿命。
[0013]4、由于路径规划是无人机的核心技术之一,目前的研究大多集中在单架无人机的路径规划上。随着机器学习领域的发展,无人机群的协同路径规划也获得了广泛关注。然而,在大规模农业生产中对传感器节点的数据收集,多无人机协同路径规划的相关研究还相当有限。

技术实现思路

[0014]针对现有技术的不足,本专利技术公开一种基于Q学习的能量受限物联网数据采集和融合方法。
[0015]专利技术概述:
[0016]本专利技术针对无人机群的碰撞避免、飞行角度变化和节点距离约束,将无人机能耗问题转化为马尔可夫决策过程,应用强化学习算法求解无人机路径决策问题:将无人机与节点之间的距离、无人机飞行角度的变化以及无人机之间的安全距离作为强化学习的奖励,使无人机群协同访问所有节点,并有效降低了能耗。此外,在无人机群任务完成后,动态选择距离基站最近的无人机作为中继无人机,中继无人机将其他无人机采集的数据统一传输到基站,从而降低了无人机群的总体飞行能耗。
[0017]本专利技术详细的技术方案包括:
[0018]一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,包括:
[0019]步骤a.建立无人机群能耗模型:
[0020]为了提高数据采集的完成率,需要根据无人机电池容量,合理规划能耗最小的路径,无人机执行任务的能耗包括无人机数据传输能耗和行动能耗;
[0021]当无人机飞行到单个节点上方时,节点将节点数据传输到无人机的能耗表示为E
node

[0022]E
node
=λ
·
e
tp
·
E
amp1
·
H
2 (1)
[0023]在公式(1)中,λ为节点数据的数据量;e
tp
为发送每单位量的节点数据所需能耗;
E
amp1
为节点内发送放大器能耗;H为节点到无人机的距离;所述节点数据为从部署农场环境中的节点收集到的数据,如温度、湿度等节点数据,但实际应用场景并不限于所记载的节点数据类型;
[0024]无人机k根据路径规划从各节点接收节点数据能耗总和表示为E
cp

[0025]E
cp
=s
·
λ
·
e
cp (2)
[0026]在公式(2)中,s为无人机k访问节点的个数;e
cp
为接收每单位量的节点数据所需能耗;
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Q学习的能量受限物联网数据采集和融合方法,其特征在于,包括:步骤a.建立无人机群能耗模型:无人机执行任务的能耗包括无人机数据传输能耗和行动能耗;当无人机飞行到单个节点上方时,节点将节点数据传输到无人机的能耗表示为E
node
:E
node
=λ
·
e
tp
·
E
amp1
·
H2ꢀꢀꢀꢀ
(1)在公式(1)中,λ为节点数据的数据量;e
tp
为发送每单位量的节点数据所需能耗;E
amp1
为节点内发送放大器能耗;H为节点到无人机的距离;无人机k根据路径规划从各节点接收节点数据能耗总和表示为E
cp
:E
cp
=s
·
λ
·
e
cp
ꢀꢀꢀꢀ
(2)在公式(2)中,s为无人机k访问节点的个数;e
cp
为接收每单位量的节点数据所需能耗;设定距离基站最近的无人机为中继无人机UAV
rp
,用于将其他无人机的数据收集后统一发送给基站,无人机k的数据发送能耗表示为E
uav
:在公式(3)中,E
amp2
为无人机内的发送放大器能耗;d为无人机之间的距离;R为提前设定的距离阈值;所述中继无人机UAV
rp
接收其他无人机数据能耗表示为E
re
:E
re
=N
·
λ
·
e
cp
ꢀꢀꢀꢀ
(4)在公式(4)中,N为应用场景中的N个节点;所述中继无人机UAV
rp
将所有数据发送到基站能耗表示为E
tr
:E
tr
=N
·
λ
·
e
tp
·
E
amp2
·
r2ꢀꢀꢀꢀꢀꢀ
(5)在公式(5)中,r为中继无人机与基站之间的距离;无人机行动能耗包括飞行能耗和悬停能耗,其中单位时间飞行能耗为e
f
,单位时间悬停能耗为e
s
;为无人机k设置二维数组记录其飞行轨迹,其中a和b分别是地面节点:如果无人机k不经过地面节点a和b之间的路径,则否则无人机k的总飞行距离表示为:在公式(6)中,L
ab
无人机从节点a到节点b的飞行距离;无人机群将所有节点遍历,存在以下约束条件:在公式(7)中,U为无人机群中无人机的总数;将给定的数据收集任务时间Γ划分为T个时隙:
当无人机群完成数据收集任务花费t个时隙时,则任务时间存在以下约束:t
·
Δt≤Γ
ꢀꢀꢀꢀꢀꢀ
(8)在公式(8)中,Δt表示每个时隙的时间;设定安全距离d
safe
,在任意时隙ts中,无人机i和无人机j之间存在以下约束:在公式(9)中,表示在任意时隙ts中无人机i和无人机j之间的距离;在每个时隙中,无人机k:根据规划路径飞行到指定节点上方收集数据,并悬停等待通过改进的Q

Learning算法获得下一个未访问节点坐标,则其飞行总能耗表示为:在公式(10)中,e
f
为无人机单位时间飞行能耗;v为无人机飞行速度;同样,无人机k在节点b的悬停能耗表示为:则无人机k的悬停总能耗表示为:则无人机k的行动总能耗为:无人机携带的电池最大电量为E
max
,在无人机k能量消耗殆尽之前完成采集任务对应的约束:E
cost
<E
max
ꢀꢀꢀꢀꢀ
(14)在公式(14)中,E
cost
为无人机任务完成时耗费的电池能量;对数据采集任务优化行动能耗,即在多无人机协作的数据采集任务中,最小化行动能耗E,则优化问题表述为:步骤b.动态选择中继无人机:当所有节点访问完成后,根据无人机群的位置动态选择距离基站最近的无人机作为中继无人机:计算各无人机与基站的距离:
在公式(16)中,基站部署在地面上,其坐标为(x
s
,y
s
,0);无人机k...

【专利技术属性】
技术研发人员:张恒高原杨明吴晓明王鑫于莉莉毕鹏徐硕李明张键李宏然
申请(专利权)人:齐鲁工业大学山东省科学院江苏海洋大学
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1