一种基于物理信息强化学习的盾构机掘进控制方法及装置制造方法及图纸

技术编号:39658356 阅读:6 留言:0更新日期:2023-12-09 11:27
本发明专利技术属于盾构施工技术领域,并具体公开了一种基于物理信息强化学习的盾构机掘进控制方法及装置

【技术实现步骤摘要】
一种基于物理信息强化学习的盾构机掘进控制方法及装置


[0001]本专利技术属于盾构施工
,更具体地,涉及一种基于物理信息强化学习的盾构机掘进控制方法及装置


技术介绍

[0002]土压平衡盾构机
(EPB TBM)
是机械化开挖城市隧道的专业设备,为地下建筑施工领域带来了革命性的变化

然而,在隧道开挖过程中,可能遭遇的复杂地质条件使得遵循经验规则的传统
TBM
作业模式存在局限性

其中一个主要的原因是手动操作
TBM
作业存在滞后性,可能导致工期延误和成本超支

因此,在盾构隧道开挖过程中,采取有效的方法优化
EPB TBM
性能是实现其操作自动化的关键一步

[0003]目前,关于
EPB TBM
的优化工作主要集中在通过预测
TBM
参数来提高掘进效率

增强安全性和降低成本方面

常用的参数优化方法是通过机器学习技术
(ML)
捕获数据集中的复杂关系,从而实现
TBM
的参数预测

然而,标准的机器学习方法通常缺乏物理可解释性,在工程应用中往往不够可靠

为了应对这一挑战,研究人员开始关注物理信息机器学习
(PIML)
方法,该方法通过将基础物理过程的先验知识整合到机器学习算法中,从而开发出更准确和可解释的模

针对
TBM
的操作问题,在机器学习算法中嵌入
TBM

土体相互作用的物理规律,可实现使用虚拟
ML
模型来描述
EPB TBM
在土体中工作的真实性能

[0004]此外,为解决传统的
TBM
参数优化方法无法在更长的时间步长上考虑每一个行为,不适用于隧道开挖连续作业的问题,强化学习
(RL)
逐渐被引入到
TBM
操作中

即,通过训练一个能够实时动态调整
TBM
参数的代理,以达到隧道开挖所需的掘进速度
(AS)
和保持开挖过程中土压力的平衡
(EPB)。
然而,训练代理的成功与否和所定义的模拟环境息息相关

因此,如何利用丰富的
TBM
运行数据集训练能够实时优化
TBM
参数的
RL
代理,并确保其学习到的策略满足
TBM
运行的物理约束和原则,成为实现
TBM
操作自动化亟需解决的问题之一


技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于物理信息强化学习的盾构机掘进控制方法及装置,其首先通过将土压平衡理论与深度神经网络
(DNN)
进行集成,构建模拟
AS
和土仓压力
(CP)

TBM
操作的响应环境

并在此基础上,通过在双延迟深度确定性算法
(TD3)
的奖励函数和惩罚中添加物理规律,以达到显著改善
TBM
性能的目的

本专利技术通过在模拟环境和奖励函数中整合
EPB TBM
工作机制的物理规律,不仅为基于机器学习技术训练的虚拟环境来模拟由
TBM
和土体组成的复杂系统提供了可能,而且有助于通过改进的
RL
方法来提高
TBM
的掘进速度和土压平衡,最终实现
TBM
高效

安全和自动化开挖

[0006]为实现上述目的,按照本专利技术的一个方面,提出了一种基于物理信息强化学习的盾构机掘进控制方法,包括以下步骤:
[0007]S1
基于
TBM
运行数据,将土压平衡理论嵌入以
DNN
为神经网络架构的模型中,构建
TBM
在隧道施工过程中的环境网络模型,并基于该环境网络模型模拟
TBM
在隧道施工过程中
的物理信息环境;
[0008]S2
以所述物理信息环境为基础,通过在双延迟深度确定性算法的奖励函数和惩罚中考虑盾构机内外的土压平衡

掘进速度非负性以及中部土仓压力介于顶部和底部土仓压力之间的物理规律和约束条件,构建基于物理的双延迟深度确定性算法模型,采用
SHAP
对上述环境网络模型进行评估和解释,同时对双延迟深度确定性算法模型进行评估;
[0009]S3
基于所述双延迟深度确定性算法模型,实时动态调整
TBM
参数,从而达到隧道开挖所需的掘进速度和保持开挖过程中土压力的平衡

[0010]作为进一步优选的,还包括对所述
TBM
运行数据的采集和预处理;
[0011]其中,所述
TBM
运行数据包括:
[0012]隧道深度
h、
总推力
TF、
螺旋输送机压力
SCP、
掘进速度
AS
,以及隧道顶部

中部和底部的土仓压力

[0013]作为进一步优选的,步骤
S1
包括以下步骤:
[0014]S11
构建隧道掘进过程中,保持土压力和盾构机内土仓压力之间平衡的土压力平衡理论模型;
[0015]S12
构建土压力平衡理论模型对隧道深度的微分方程,并根据实时测量的不同高度的土仓压力重建微分方程,以获取物理损失;
[0016]S13
将此物理损失添加到测量的观测值和预测值之间的平方误差的观测损失中,以构建用于训练环境网络模型的损失函数;
[0017]S14
基于
TBM
运行数据以及所述损失函数对环境网络模型进行训练,并基于该环境网络模型模拟
TBM
在隧道施工过程中的物理信息环境

[0018]作为进一步优选的,步骤
S12
中,所述根据实时测量的不同高度的土仓压力重建微分方程包括:
[0019][0020]式中,
σ
T

σ
M

σ
B
分别代表隧道截面顶部

中部和底部传感器测得的平均土仓压力值,
d
是顶部传感器和底部传感器之间的距离,
σ
TBM
是盾构机中心土仓压力,
Δ
h
是深度变化量;
[0021]步骤
S13
中,用于训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于物理信息强化学习的盾构机掘进控制方法,其特征在于,包括以下步骤:
S1
基于
TBM
运行数据,将土压平衡理论嵌入以
DNN
为神经网络架构的模型中,构建
TBM
在隧道施工过程中的环境网络模型,并基于该环境网络模型模拟
TBM
在隧道施工过程中的物理信息环境;
S2
以所述物理信息环境为基础,通过在双延迟深度确定性算法的奖励函数和惩罚中考虑盾构机内外的土压平衡

掘进速度非负性以及中部土仓压力介于顶部和底部土仓压力之间的物理规律和约束条件,构建基于物理的双延迟深度确定性算法模型,采用
SHAP
对上述环境网络模型进行评估和解释,同时对双延迟深度确定性算法模型进行评估;
S3
基于所述双延迟深度确定性算法模型,实时动态调整
TBM
参数,从而达到隧道开挖所需的掘进速度和保持开挖过程中土压力的平衡
。2.
根据权利要求1所述的一种基于物理信息强化学习的盾构机掘进控制方法,其特征在于,还包括对所述
TBM
运行数据的采集和预处理;其中,所述
TBM
运行数据包括:隧道深度
h、
总推力
TF、
螺旋输送机压力
SCP、
掘进速度
AS
,以及隧道顶部

中部和底部的土仓压力
。3.
根据权利要求1所述的一种基于物理信息强化学习的盾构机掘进控制方法,其特征在于,步骤
S1
包括以下步骤:
S11
构建隧道掘进过程中,保持土压力和盾构机内土仓压力之间平衡的土压力平衡理论模型;
S12
构建土压力平衡理论模型对隧道深度的微分方程,并根据实时测量的不同高度的土仓压力重建微分方程,以获取物理损失;
S13
将此物理损失添加到测量的观测值和预测值之间的平方误差的观测损失中,以构建用于训练环境网络模型的损失函数;
S14
基于
TBM
运行数据以及所述损失函数对环境网络模型进行训练,并基于该环境网络模型模拟
TBM
在隧道施工过程中的物理信息环境
。4.
根据权利要求1所述的一种基于物理信息强化学习的盾构机掘进控制方法,其特征在于,步骤
S12
中,所述根据实时测量的不同高度的土仓压力重建微分方程包括:式中,
σ
T

σ
M

σ
B
分别代表隧道截面顶部

中部和底部传感器测得的平均土仓压力值,
d
是顶部传感器和底部传感器之间的距离,
σ
TBM
是盾构机中心土仓压力,
Δ
h
是深度变化量;步骤
S13
中,用于训练
PDNN
模型的新损失函数包括:式中,
λ
是衡量物理损失的权重;和分别是
DNN
模型预测的顶部

中部和底部的土仓压力;是预测的掘进速度;
v、
σ
T

σ
M

σ
B
是观测到的设计输出值

5.
根据权利要求1所述的一种基于物理信息强化学习的盾构机掘进控制方法,其特征在于,步骤
S2
中,所述通过在双延迟深度确定性算法的奖励函数和惩罚中考虑盾构机内外的土压平衡

掘进速度非负性以及中部土仓压力介于顶部和底部土仓压力之间的物理规律和约束条件包括:采用下面式子对掘进速度和土仓压力的奖励进行归一化处理:式中,
v
max

v
min
分别是数据集中的最大掘进速度和最小掘进速度;
ρ
是权重,和分别是
DNN

【专利技术属性】
技术研发人员:张立茂林鹏辉王露露黄锦庭李永胜王堃宇王迦淇邬毛志吴贤国付先雷肖仲华郭靖
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1