【技术实现步骤摘要】
一种巡检路线优化方法及装置
[0001]本专利技术涉及强化学习
,尤其涉及一种巡检路线优化方法及装置
。
技术介绍
[0002]化工厂对于设备的安全性和效率要求较高
。
化工产品生产的物理过程可归纳为几个单元操作,每个单元之间环环相扣,一个设备的运行状态影响后续的设备,进出口的物料有着一定的关联
。
而现场巡检工作则是对生产设备进行定期的巡检,由几个班组的工作人员完成
。
巡检中对设备的运行情况及生产进度进行详细记录,有故障将联系技术人员进行紧急处理
。
现有的巡检形式是在固定时间采用固定路线要求员工在巡检点进行检查和记录,在现场巡检工作中,存在以下问题:
1、
数据繁琐,无法提取有效信息
。
每个巡检人员上传的数据包括时间
、
路线
、
处理情况等等,针对不同的目标应该注重数据中的不同部分,需总花费时间最短,则需要设计优化路线;需处理效率最高,则需要优化人员处理能力及后续维护的协调;
2、
耗费时间,需要大量人工干预;
3、
巡检路线不够灵活,效率不高
。
[0003]而路线的优化是巡检工作中的重点
。
巡检路线的优化可以给化工企业带来更高的工作效率和更低的人工成本投入,加快了故障的处理速度,对于化工厂的稳定运行以及提升安全生产都有着重大意义
。
给定起点终点和途径点从而进行路径优化是一个很出名的
【技术保护点】
【技术特征摘要】
1.
一种巡检路线优化方法,其特征在于,所述方法包括:将最优巡检路线抽象为马尔可夫决策过程;根据巡检点的位置建立强化学习仿真环境;智能体根据当前时间步的状态信息得到的环境反馈进行奖励增强型强化学习,用于完成最优巡检路线规划;利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习;智能体在奖励增强型强化学习的过程中,在环境因素变化的干扰下选取最优巡检路线
。2.
根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程包括四元组,分别为:状态空间
S
,
S
=
{s
t
}
表示当前时间步的状态的集合,
s
t
由巡检路线标志矩阵与巡检点标志矩阵组成;动作空间
A
,
A
=
{a
t
}
表示智能体动作的集合,
a
t
为当前时间步的动作;状态转移概率
p
,假设状态空间
S
和动作空间
A
都是连续的,状态转移概率
p
表示从状态
s
t
转移到下一步状态
s
t+1
的概率;即时奖励值
R
,
R
=
{r
t
}
表示即时奖励的集合,
r
t
为单步的距离与根据环境中距离的标尺得到的负系数的乘积
。3.
根据权利要求1所述的方法,其特征在于,所述智能体根据当前时间步的状态信息给出的环境反馈进行奖励增强型强化学习,包括:智能体在时刻
t
观测到环境反馈的状态
s
t
∈S
,根据策略
π
(s
t
,a
t
)
选取动作
a
t
∈A
,完成动作后获取实时奖励值
r
t
,动作
a
t
同时改变环境,状态从
s
t
转移到
s
t+1
,智能体根据
t+1
时刻的状态
s
t+1
选择下一个动作,进入下一时间节点的迭代
。4.
根据权利要求1所述的方法,其特征在于,所述利用最大熵奖励增强型强化学习算法,进行最大熵奖励增强型强化学习,还包括:同时最大化累计奖励和最大化选取动作累积的熵的最优策略的表达式为:式中,
π
为策略,
T
为时间长度,
γ
为折扣因子,温度因子
α
用于控制熵正则化的程度,...
【专利技术属性】
技术研发人员:刘中河,王放,张奕,陈帅,张黎明,安博林,彭伟,杨潇,卞艺晓,
申请(专利权)人:北京燃气集团天津液化天然气有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。