一种基于强化学习的盾构掘进纠偏智能决策方法技术

技术编号:32214084 阅读:15 留言:0更新日期:2022-02-09 17:19
本发明专利技术属于盾构施工技术领域,具体涉及一种基于强化学习的盾构掘进纠偏智能决策方法。设计环境状态集、动作集以及奖励函数,搭建盾构仿真纠偏环境;构建盾构纠偏决策模型;构建模型评估方法,得到盾构纠偏决策模型与盾构纠偏仿真环境交互后奖励分数最高的盾构纠偏决策模型;通过网格搜索方法确定值函数网络结构的参数;根据网格搜索结果,将确定的盾构纠偏决策模型在仿真环境中进行多回合训练;将盾构纠偏决策模型所处的状态数据输入最终模型,模型将直接输出执行动作的取值,作为决策方案。通过本发明专利技术提供盾构的纠偏决策方案,避免了盾构司机根据现场情况自行纠偏,以及手动操作造成蛇形纠偏的问题。成蛇形纠偏的问题。成蛇形纠偏的问题。

【技术实现步骤摘要】
一种基于强化学习的盾构掘进纠偏智能决策方法


[0001]本专利技术属于盾构施工
,具体涉及一种基于强化学习的盾构掘进纠偏智能决策方法。

技术介绍

[0002]隧道建设作为地下空间开发的重要组成部分,采用盾构机来完成隧道的贯通任务已经十分广泛。盾构施工项目中,盾构姿态是盾构操作人员进行推进方案决策的关键因素,当盾构机偏离设计轴线时,需要对相关掘进参数进行及时调整,让盾构机逐渐回到轴线上来。盾构机的姿态与地表沉降、管片拼装等密切相关,直接影响到成型隧道的质量和路线。因此,盾构机的推进姿态控制是盾构施工项目质量管理中的关键问题。目前盾构姿态的纠偏技术可以大致分为以下几类:
[0003](1)以三点法为基础,结合全站仪、棱镜、倾斜仪等装置,改进盾构坐标及姿态偏差的计算方法,为盾构姿态的纠偏控制决策提供必需基础支持。
[0004](2)通过对施工历史数据的描述性统计和回归分析,分析油缸行程、土舱压力等掘进参数对盾构姿态的影响规律,探索掘进参数与盾构位姿间的相关关系,根据规律反向调整相关掘进参数,进而控制盾构方向,对盾构操作者的纠偏操作决策提供理论基础。
[0005](3)通过递归特征消除、随机森林等方法对掘进参数进行特征选择,通过XGBoost方法、构建神经网络等方法,预测盾构的姿态偏差、姿态角度等。由于盾构所处姿态是盾构操作控制决策的主要依据,因此,根据施工参数预测得到的盾构姿态便可以作为下一步参数调整决策的参考,提前调整参数,以控制掘进的方向。
[0006](4)采用模糊数学和PID控制系统,基于运动学模型建立盾构的纠偏曲线模型,构建外环规划、内环精确控制的PID控制系统,对盾构姿态实现纠偏控制。
[0007]盾构姿态的精确测算、相关参数对盾构姿态的影响规律以及姿态的预测研究从决策基础、决策依据上为盾构的操作人员提供了基础的决策支持,但其并不能提供直接的决策方案,盾构的各个操作仍需要人为控制。而单纯依靠人为手动纠偏容易因为纠偏时机和纠偏量控制不好而造成蛇形纠偏,盾构姿态的精确控制非常依赖操作者的项目经验。

技术实现思路

[0008]本专利技术公开了一种基于强化学习的盾构掘进纠偏智能决策方法,拟解决
技术介绍
中提到的盾构姿态的精确控制非常依赖操作者的项目经验,单纯依靠人为手动纠偏容易因为纠偏时机和纠偏量控制不好造成蛇形纠偏的问题。
[0009]为解决上述技术问题,本专利技术采用的技术方案如下:
[0010]一种基于强化学习的盾构掘进纠偏智能决策方法,包括以下步骤:
[0011]步骤1:结合盾构项目现场的掘进纠偏策略过程与技术经验,设计环境状态集、动作集以及奖励函数,搭建基于强化学习框架的盾构纠偏仿真环境;
[0012]步骤2:构建与盾构纠偏仿真环境交互的盾构纠偏决策模型;
[0013]步骤3:构建模型评估方法,得到盾构纠偏决策模型与盾构纠偏仿真环境交互后奖励分数最高的盾构纠偏决策模型;
[0014]步骤4:通过网格搜索方法确定盾构纠偏决策模型中值函数网络结构的参数;
[0015]步骤5:根据网格搜索结果,将确定值函数网络结构的盾构纠偏决策模型在仿真环境中进行多回合训练;由于值函数网络是盾构纠偏决策模型的组成部分,通过网络搜索结果确定值函数网络结构,也就确定了盾构纠偏决策模型的结构;
[0016]步骤6:将盾构纠偏决策模型所处的状态数据输入最终模型,模型将直接输出执行动作的取值,作为决策方案。将在步骤5中确定的盾构纠偏决策模型在仿真环境中进行数个回合的训练后,保存训练模型,此处最终模型即为上述保存的训练模型。
[0017]本专利技术根据环境状态集得出的关键决策参数的调整策略,可以为盾构司机提供决策方案参考,有助于减轻盾构司机的决策疑虑与决策强度,降低盾构司机的工作强度,有效的保障盾构司机在面对突发状况时能有充沛的精力作出及时、高效的应对方案,进而提高项目安全、保证项目的稳定进行;通过本专利技术提供盾构的纠偏决策方案,避免了盾构司机根据现场情况自行纠偏,以及手动操作造成蛇形纠偏的问题。
[0018]优选的,所述环境状态集为盾构测量系统测算出的盾构关键姿态参数。
[0019]优选的,所述盾构关键姿态参数包括切口环水平偏差、切口换竖直偏差、盾尾水平偏差、盾尾竖直偏差、滚动角、俯仰角、水平偏航角、竖直偏航角。
[0020]优选的,所述动作集根据盾构纠偏原理进行设计。
[0021]优选的,所述奖励函数基于盾构的纠偏方向、纠偏速度以及盾构机与设计曲线的偏差来设计奖励函数;
[0022]R(s,a,s

)=r_d+r_v+r_y
[0023]式中r_d表示盾构纠偏方向的奖励,r_v表示纠偏速度的奖励,r_y表示盾构机的轴线偏差奖励;
[0024]所述纠偏方向的奖励如下式所示:
[0025][0026]式中r_d表示盾构纠偏方向的奖励,Δy
t
‑1为t的前一时刻t

1时刻盾构机与设计轴线的差值;
[0027]所述纠偏速度的奖励如下式所示:
[0028][0029]式中r_v表示纠偏速度的奖励,|d
rt
|为盾构机轴线偏差的绝对值;
[0030]所述轴线偏差的奖励如下式所示:
[0031][0032]式中r_y表示盾构机的轴线偏差奖励,|Δy
t
|表示盾构机偏离既定线路的距离。
[0033]进一步的,为了提高样本的利用率并减少样本相关性,所述步骤2还包括采用队列的结构构建一个经验池,用于储存盾构纠偏决策模型与盾构纠偏仿真环境交互得到的交互历史数据;从经验池中采样的样本数据用于值函数网络的训练。所述样本为从经验池中采样得到的数据。
[0034]进一步的,由于与盾构纠偏仿真环境的交互和更新均来自同一个盾构纠偏决策模型,交互产生的数据会对迭代产生影响,为了减少模型更新的不稳定性,所述盾构纠偏决策模型包括两个结构一致的卷积神经网络形成双网络机制;一个作为在线网络选择,使价值最大的决策动作与盾构纠偏仿真环境交互得到样本;另一个作为目标网络用于计算在线网络所执行决策的价值;每一步训练均根据以下训练公式对在线网络的参数进行更新,经过迭代数次后再将目标网络的参数替换为在线网络的参数;
[0035]所述训练公式如下所示:
[0036]Q(s,a;θ)

Q(s,a;θ)+α[r+γQ(s

,argmax
a

Q(s

,a);θ

)

Q(s,a;θ)][0037]式中:,Q(s,a;θ)代表在线网络,s为盾构纠偏决策模型所处的环境状态,a为盾构纠偏决策模型在所处的环境状态下做出的决策动作,s

代表执行决策动作后转移到的下一个环境状态,r代表执行决策动作后从环境获得的反馈,γ是一个折扣因子,Q(s,a;θ)代表值函数网络,θ表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,包括以下步骤:步骤1:结合盾构项目现场的掘进纠偏策略过程与技术经验,设计环境状态集、动作集以及奖励函数,搭建基于强化学习框架的盾构纠偏仿真环境;步骤2:构建与盾构纠偏仿真环境交互的盾构纠偏决策模型;步骤3:构建模型评估方法,得到盾构纠偏决策模型与盾构纠偏仿真环境交互后奖励分数最高的盾构纠偏决策模型;步骤4:通过网格搜索方法确定盾构纠偏决策模型中值函数网络结构的参数;步骤5:根据网格搜索结果,将确定值函数网络结构的盾构纠偏决策模型在仿真环境中进行多回合训练;步骤6:将盾构纠偏决策模型所处的状态数据输入最终模型,模型将直接输出执行动作的取值,作为决策方案。2.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述环境状态集为盾构测量系统测算出的盾构关键姿态参数。3.根据权利要求2所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述盾构关键姿态参数包括切口环水平偏差、切口换竖直偏差、盾尾水平偏差、盾尾竖直偏差、滚动角、俯仰角、水平偏航角、竖直偏航角。4.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述动作集根据盾构纠偏原理进行设计。5.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述奖励函数基于盾构的纠偏方向、纠偏速度以及盾构机与设计曲线的偏差来设计奖励函数;式中表示盾构纠偏方向的奖励,表示纠偏速度的奖励,表示盾构机的轴线偏差奖励;所述纠偏方向的奖励如下式所示:式中表示盾构纠偏方向的奖励,为t的前一时刻t

1时刻盾构机与设计轴线的差值;所述纠偏速度的奖励如下式所示:
式中表示纠偏速度的奖励,为盾构机轴线偏差的绝对值;所述轴线偏差的奖励如下式所示:式中表示盾构机的轴线偏差奖励,表示盾构机偏离既定线路的距离。6.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述步骤2还包括采用队列的结构构建一个经验池,用于储存盾构纠偏决策模型与盾构纠偏仿真环境交互得到的训练数据;经验池中的训练数据用于值函数网络的训练。7.根据权利要求1所述的一种基于强化学习的盾构掘进纠偏智能决策方法,其特征在于,所述盾构纠偏决策模型包括两个结构一致的卷积神经网络形成双网络机制;一个作为在线网络选择,使价值最大的决策动作与盾构纠偏仿真环境交互得到样本;另一个作为目标网络用于计算在线网络所执行决策的价值,每一步训练均根据以下训练公式对在线网络的参数进行更新,经过迭代数次后再将目标网络的参...

【专利技术属性】
技术研发人员:庄元顺苏叶茂牟松徐进刘绥美李开富张炬朱菁梅元元张中华陈可刘洋梁博李才洪杨冰胡可陈鑫李明扬
申请(专利权)人:中铁工程服务有限公司西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1