一种巡检路线优化方法及装置制造方法及图纸

技术编号:39826258 阅读:8 留言:0更新日期:2023-12-29 16:01
本发明专利技术提供了一种巡检路线优化方法及装置,该方法包括:将最优巡检路线抽象为马尔可夫决策过程;根据巡检点的位置建立强化学习仿真环境;智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线

【技术实现步骤摘要】
一种巡检路线优化方法及装置


[0001]本专利技术涉及强化学习
,尤其涉及一种巡检路线优化方法及装置


技术介绍

[0002]化工厂对于设备的安全性和效率要求较高

化工产品生产的物理过程可归纳为几个单元操作,每个单元之间环环相扣,一个设备的运行状态影响后续的设备,进出口的物料有着一定的关联

而现场巡检工作则是对生产设备进行定期的巡检,由几个班组的工作人员完成

巡检中对设备的运行情况及生产进度进行详细记录,有故障将联系技术人员进行紧急处理

现有的巡检形式是在固定时间采用固定路线要求员工在巡检点进行检查和记录,在现场巡检工作中,存在以下问题:
1、
数据繁琐,无法提取有效信息

每个巡检人员上传的数据包括时间

路线

处理情况等等,针对不同的目标应该注重数据中的不同部分,需总花费时间最短,则需要设计优化路线;需处理效率最高,则需要优化人员处理能力及后续维护的协调;
2、
耗费时间,需要大量人工干预;
3、
巡检路线不够灵活,效率不高

[0003]而路线的优化是巡检工作中的重点

巡检路线的优化可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度,对于化工厂的稳定运行以及提升安全生产都有着重大意义

给定起点终点和途径点从而进行路径优化是一个很出名的研究问题,近几年以强化学习为主的智能算法被发现在处理这类问题时所具备的优势

目前主要巡检路线优化方法分为三类:
1、
传统算法:比如
A*
算法
、Dijkstra
算法,这类方法算法简单,应用方便,主要缺陷是应对复杂情况下适应能力不足;
2、
群体算法:比如蚁群算法,遗传算法及其改进算法,这类方法具有不错的适应性和鲁棒性,但是数据效率不够高,且存在无法逃离局部最优的问题存在;
3、
智能算法:包括强化学习算法解决巡检路径优化的问题,但算法也存在超参数敏感,收敛到局部最优的问题

[0004]强化学习是一种数据驱动的智能学习算法,无需模型的具体信息,大部分为无模型的应用场景,具备一定的鲁棒性和灵活性

通过与环境进行互动来得到环境对于动作的反馈信号,从而在不断学习和互动的过程中得到近乎最优的策略

如图1的强化学习模型,近几年由于深度神经网络超强的逼近和拟合能力,深度强化学习越来越成为研究热点,尤其是最大熵强化学习的算法的提出,在强化学习探索和利用的关键问题上取得了较好的平衡

最大熵强化学习算法指的是在强化学习优化过程中不仅需要累积奖励值最大,也需要累计的熵值最大,即动作选取时保持一定的多样性,但是该算法存在一定的收敛速度的问题


技术实现思路

[0005]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的巡检路线优化方法及装置

[0006]本专利技术的一个方面,提供了一种巡检路线优化方法,所述方法包括:
[0007]将最优巡检路线抽象为马尔可夫决策过程;
[0008]根据巡检点的位置建立强化学习仿真环境;
[0009]智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;
[0010]利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;
[0011]智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线

[0012]进一步地,所述马尔可夫决策过程包括四元组,分别为:
[0013]状态空间
S

S

{s
t
}
表示当前时间步的状态的集合,
s
t
由巡检路线标志矩阵与巡检点标志矩阵组成;
[0014]动作空间
A

A

{a
t
}
表示智能体动作的集合,
a
t
为当前时间步的动作;状态转移概率
p
,假设状态空间
S
和动作空间
A
都是连续的,状态转移概率
p
表示从状态
s
t
转移到下一步状态
s
t+1
的概率;
[0015]即时奖励值
R

R

{r
t
}
表示即时奖励的集合,
r
t
为单步的距离与根据环境中距离的标尺得到的负系数的乘积

[0016]进一步地,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:
[0017]智能体在时刻
t
观测到环境反馈的状态
s
t
∈S
,根据策略
π
(s
t
,a
t
)
选取动作
a
t
∈A
,完成动作后获取实时奖励值
r
t
,动作
a
t
同时改变环境,状态从
s
t
转移到
s
t+1
,智能体根据
t+1
时刻的状态
s
t+1
选择下一个动作,进入下一时间节点的迭代

[0018]进一步地,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:
[0019]同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:
[0020][0021]式中,
π
为策略,
T
为时间长度,
γ
为折扣因子,温度因子
α
用于控制熵正则化的程度,若
α
较大,表明策略随机性越强,若
α
=0,则策略趋近于确定性,表示状态
s
t
下策略分布的熵,且策略
π
(.∣s
t
)
越随机,熵值越大

[0022]最大熵奖励增强型强化学习中,奖励
r
a
的表达式为:
[0023]r
a

r
t
+
τ
log
π
(a
t
∣s
t
)
[0024]式中,
τ
为奖励增强项的系数
...

【技术保护点】

【技术特征摘要】
1.
一种巡检路线优化方法,其特征在于,所述方法包括:将最优巡检路线抽象为马尔可夫决策过程;根据巡检点的位置建立强化学习仿真环境;智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线
。2.
根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程包括四元组,分别为:状态空间
S

S

{s
t
}
表示当前时间步的状态的集合,
s
t
由巡检路线标志矩阵与巡检点标志矩阵组成;动作空间
A

A

{a
t
}
表示智能体动作的集合,
a
t
为当前时间步的动作;状态转移概率
p
,假设状态空间
S
和动作空间
A
都是连续的,状态转移概率
p
表示从状态
s
t
转移到下一步状态
s
t+1
的概率;即时奖励值
R

R

{r
t
}
表示即时奖励的集合,
r
t
为单步的距离与根据环境中距离的标尺得到的负系数的乘积
。3.
根据权利要求1所述的方法,其特征在于,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:智能体在时刻
t
观测到环境反馈的状态
s
t
∈S
,根据策略
π
(s
t
,a
t
)
选取动作
a
t
∈A
,完成动作后获取实时奖励值
r
t
,动作
a
t
同时改变环境,状态从
s
t
转移到
s
t+1
,智能体根据
t+1
时刻的状态
s
t+1
选择下一个动作,进入下一时间节点的迭代
。4.
根据权利要求1所述的方法,其特征在于,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:式中,
π
为策略,
T
为时间长度,
γ
为折扣因子,温度因子
α
用于控制熵正则化的程度,...

【专利技术属性】
技术研发人员:刘中河王放张奕陈帅张黎明安博林彭伟杨潇卞艺晓
申请(专利权)人:北京燃气集团天津液化天然气有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1