一种基于深度强化学习算法的无人机电力巡检方法技术

技术编号:39817087 阅读:8 留言:0更新日期:2023-12-22 19:36
本发明专利技术属于无人机控制领域,具体公开了一种基于深度强化学习算法的无人机电力巡检方法,该方法针对城市内电力巡检的需求,在满足巡检条件的情况下,通过对目标区域环境,无人机运动过程,电力设备布置的建模,整合得到地图数据,再通过对地图的中心化和根据无人机动作连续性的分化预处理,使用卷积神经网络和多头自注意力机制提取特征,再通过强化学习算法得出无人机在电力巡检任务上的最佳决策机制,最大化了数据的采集率并搜寻最短路径

【技术实现步骤摘要】
一种基于深度强化学习算法的无人机电力巡检方法


[0001]本专利技术涉及无人机控制和深度强化学习领域,具体涉及一种基于深度强化学习算法的无人机电力巡检方法


技术介绍

[0002]电力巡检的任务主要是对电力设备进行定期巡查

检测

维护和保养,以确保电力设备的正常运行和安全运行,保障电力供应的稳定性,提高电力设备的使用效率和经济效益

传统的电力巡检方式通常为人工巡检和机器人巡检

人工巡检的方式,不仅效率低下,对于一些异常情况可能出现漏检,并且成本过高,同时也存在着极大的安全隐患

无人机技术近几年快速发展,其独特的低成本,低消耗,高可控性,让电力巡检有了新的思路

[0003]深度强化学习是一种可行的方法,其将深度学习的感知能力和强化学习的决策能力相结合,为复杂系统的感知决策问题提供了解决思路

[0004]以上情形都局限于某些山区或是空旷场景,而涉及城市内的电力设备,由于目前国内外城市环境复杂,城市内电路系统向地下改造等,尚未有合适的无人机电力巡检方法


技术实现思路

[0005]本专利技术针对城市内电力巡检的需求,提出了一种基于深度强化学习算法的无人机电力巡检方法,在满足巡检条件的情况下,最大化了数据的采集率并搜寻最短路径

具体技术方案如下:
[0006]一种基于深度强化学习算法的无人机电力巡检方法,该方法包括如下步骤:
[0007]步骤1:根据真实楼房建模作为环境地图,设定好起降点
L
,障碍物
OB
,禁飞区
Z
,设定用于训练的设备和无人机的参数范围,设定无人机运动模型,设定电力设备分布模型,初始化参数;
[0008]步骤2:将电力设备巡检问题抽象为非中心部分可观测马尔可夫决策过程问题,即用已知的部分局部地图预测未知的全地图信息;
[0009]步骤3:将地图中心化处理,即将地图放大后,让无人机处于地图中心,空白点由填充值填充,在无人机发生位移时转而由地图产生平移;
[0010]步骤4:将中心化的地图裁剪为一定大小的局部地图,即围绕处于原点的无人机为中心以一定范围进行裁剪,用以描述无人机附近的地理特征,训练无人机短期避障能力;
[0011]步骤5:将中心化的地图池化为一定大小的全局地图,即在一定范围内进行平均池化,用以描述全域内的大致地理特征,训练无人机长期决策能力;
[0012]步骤6:令全局化的地图和局部化的地图分别进入两个独立的卷积神经网络层提取地图特征;
[0013]步骤7:地图合并后进入基于通道的多头自注意力机制层;
[0014]步骤8:将数据输入双重深度
Q
网络中,迭代指定次数后,输出策略网络参数,完成训练过程;
[0015]步骤9:将策略网络参数嵌入无人机中,每次执行巡检任务时,按照本次任务的情况,输入无人机参数和电力设备参数,启动无人机根据策略网络参数执行巡检任务

[0016]进一步地,所述步骤1中,对于设备和无人机的参数的初始化,包括以下步骤:
[0017]所述步骤1中设备和无人机的参数包括:无人机初始电量,无人机数量,设备位置,设备待检测数据量,设备数量;
[0018]多无人机
I

{1,2,

,i,

,j,

,N}
的运动符合以下方程组:
[0019][0020][0021][0022][0023]式中
p
i
(t)
为当前时刻无人机位置,
b
i
(t)
为当前时刻无人机电量,
Z
为禁飞区的点集,
L
为起降点的点集,
t
为时间;
[0024]多无人机
I

{1,2,

,i,

,j,

,N}
的对设备信息的采集符合以下方程组:
[0025][0026]式中
S(t)
为当前时刻所有无人机采集数据量,
q
i
(k)
为当前无人机对电力设备
k
的优先级函数组,
v(k)
为收集速率,
K
为电力设备的总数量,
N
为无人机的总数量

[0027]进一步地,所述步骤2中,对于非中心部分可观马尔可夫决策过程问题的转化,包括以下步骤:
[0028]决策过程由五元组
(S,T,P,R,O)
描述,
S
表示状态集,
T
表示动作集,
P
表示概率分布函数,
R
表示奖惩函数,
O
表示观测空间;
[0029]采用奖惩函数为:
[0030][0031]式中
r
t

t
时刻的回报,
G
i
(t)
为无人机
i
在任意
t
时刻受到的采集奖励,与
t
时刻采集到的数据量
S(t)
成正相关,
γ
i
(t)
表示无人机
i
在任意
t
时刻受到的超时惩罚,
β
i
(t)
表示无人机
i

t
时刻收到的碰撞惩罚,无人机未到达终点时,会持续受到固定惩罚
∈。
[0032]进一步地,所述步骤3中,对于地图中心化处理的过程,包括以下步骤:
[0033]假定原地图为
A
,对应无人机
i
经过处理的地图为
B
i
,则转换满足:
[0034][0035]式中
b
i
(m,n)
表示地图
B
i

(m,n)
点处的值,
a(m+p0‑
M+1,n+p1‑
M+1)

A
地图上的坐标
(m+p0‑
M+1,n+p1‑
M+1)
处的值,
(p0,p1)
为无人机
i
当前位置
p
i
(t)

M

A
地图的边长

[0036]进一步地,所述步骤4中,对于地图局部化处理的过程,包括以下步骤:
[0037]设转换后的地图为
X
i
,则满足下列公式:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习算法的无人机电力巡检方法,其特征在于,该方法包括如下步骤:步骤1:根据真实楼房建模作为环境地图,设定好起降点
L
,障碍物
OB
,禁飞区
Z
,设定用于训练的设备和无人机的参数范围,设定无人机运动模型,设定电力设备分布模型,初始化参数;步骤2:将电力设备巡检问题抽象为非中心部分可观测马尔可夫决策过程问题
,
即用已知的部分局部地图预测未知的全地图信息;步骤3:将地图中心化处理,即将地图放大后,让无人机处于地图中心,空白点由填充值填充,在无人机发生位移时转而由地图产生平移;步骤4:将中心化的地图裁剪为一定大小的局部地图,即围绕处于原点的无人机为中心以一定范围进行裁剪,用以描述无人机附近的地理特征,训练无人机短期避障能力;步骤5:将中心化的地图池化为一定大小的全局地图,即在一定范围内进行平均池化,用以描述全域内的大致地理特征,训练无人机长期决策能力;步骤6:令全局化的地图和局部化的地图分别进入两个独立的卷积神经网络层提取地图特征;步骤7:地图合并后进入基于通道的多头自注意力机制层;步骤8:将数据输入双重深度
Q
网络中,迭代指定次数后,输出策略网络参数,完成训练过程;步骤9:将策略网络参数嵌入无人机中,每次执行巡检任务时,按照本次任务的情况,输入无人机参数和电力设备参数,启动无人机根据策略网络参数执行巡检任务
。2.
根据权利要求1所述的方法,其特征在于,所述步骤1中,对于设备和无人机的参数的初始化,包括以下步骤:所述步骤1中设备和无人机的参数包括:无人机初始电量,无人机数量,设备位置,设备待检测数据量,设备数量;多无人机
I

{1,2,

,i,

,j,

,N}
的运动符合以下方程组:的运动符合以下方程组:的运动符合以下方程组:的运动符合以下方程组:式中
p
i
(t)
为当前时刻无人机位置,
b
i
(t)
为当前时刻无人机电量,
Z
为禁飞区的点集,
L
为起降点的点集,
t
为时间;多无人机
I

{1,2,

,i,

,j,

,N}
的对设备信息的采集符合以下方程组:式中
S(t)
为当前时刻所有无人机采集数据量,
q
i
(t)
为当前无人机对电力设备
k
的优先级函数组,
v(k)
为收集速率,
K
为电力设备的总数量,
N
为无人机的总数量

3.
根据权利要求1所述的方法,其特征在于,所述步骤2中,对于非中心部分可观马尔可夫决策过程问题的转化,包括以下步骤:决策过程由五元组
(S,T,P,R,O)
描述,
S
表示状态集,
T
表示动作集,
P
表示概率...

【专利技术属性】
技术研发人员:吴哲夫王盛洁
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1