【技术实现步骤摘要】
基于强化学习的自适应工况打桩控制方法
[0001]本专利技术涉及打桩机的控制
,特别涉及一种基于强化学习的自适应工况打桩控制方法。
技术介绍
[0002]在高速道路建设过程中道路两旁多为地势险要地区,为了有效减少意外事故带来的安全问题,一般都会在高速路两旁装有安全防护栏来保证来往车辆的安全。在安装防护栏时需要进行放桩、打桩以保证防护栏的稳定性。由于地形或作业技术水平限制等原因,打桩工作过程中常常出现地桩歪斜、入地深度过多或过少等问题。目前国内多所机构对打桩自动控制方面都进行了一定程度的研究,比如:西安工业大学设计了一种落锤打桩机自动控制系统,能完成打桩过程中的故障分析和处理;佛山顺德建设工程质量安全监督检测中心有限公司提出基于机器学习的模式识别方法判断桩是否达到收锤要求。
[0003]目前对于高速路上的放桩、打桩任务大多数还是以人工测量和操作为主,在实际工程中,打桩机的工作环境通常比较恶劣,工况复杂且多变,土层的性质和分布直接影响了打桩作业过程,也影响着桩锤所需作用力和预制桩的竖向承载力。为对打桩机构设计以及对 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的自适应工况打桩控制方法,其特征在于,包括以下步骤:步骤S1,建立液压桩锤控制模型:对打桩机的液压锤桩的控制过程进行马尔科夫决策过程建模,以反映打桩过程工况的数据作为液压锤桩模型的状态集,以桩锤液压系统的系统压力和沉桩速率作为动作集,建立液压桩锤控制模型;步骤S2,设计控制液压锤桩的奖赏函数:采用模块化的奖赏函数,使用多个目标优化更新网络,使用打桩效率、沉桩精确度以及垂直度要求三方面作为度量来构造奖赏函数;步骤S3,对液压桩锤控制模型进行训练,得到自适应工况控制算法:基于优化的SAC强化学习算法对液压桩锤控制模型进行训练,将桩锤液压系统控制模块作为智能体agent,通过强化学习与环境进行交互训练,从动作空间中选择合适的决策值来控制桩锤液压系统;学习训练结束,得到液压锤桩自适应工况控制算法;步骤S4,通过步骤S3得到的液压锤桩自适应控制算法,实现液压锤桩系统的自适应工况控制,从而达到实时根据工况控制桩锤的桩锤液压系统的系统压力和沉桩速率;当传感器检测出异常数据时,立即停止锤桩系统的运行,并通过警报系统通知施工人员到现场处理特殊情况,保证施工的顺利进行。2.按照权利要求1所述的自适应工况打桩控制方法,其特征在于,在步骤S1中:对打桩机的液压锤桩的控制过程进行马尔科夫决策过程建模时,智能体agent通过强化学习与环境进行交互,通过多次交互获得经验寻求最优策略;强化学习过程由马尔科夫决策过程来表示,马尔科夫链由元组<S,A,π,r,g>组成,其中S表示所有状态的集合;A表示所有动作的集合;π表示动作条件概率分布;r表示回报值;g表示回报折扣比例;其中,将桩锤液压系统控制模块作为智能体agent,以锤桩系统的参数状态视为当前状态S
t
,所述当前状态S
t
包含:桩端中心坐标值(x,y)、桩的入土深度h、单位深度锤击数n、桩锤的锤击力F、累计锤击数N、单位深度锤击能量e、累计锤击能量E、入土深度平均能量em和累计入土深度平均能量EM;以桩锤液压系统的系统压力和沉桩速率作为动作集A。3.按照权利要求1所述的自适应工况打桩控制方法,其特征在于,步骤S2包括以下步骤:步骤S21,建立打桩效率的奖励值函数:打桩效率的评价标准,由击入量、贯入速率、锤击次数等参数决定;打桩效率的奖励值函数如下:R1=ω1ln(h+1)+ω2ln(F+1)
‑
ω3n
‑
ω4N上式中,ω1、ω2、ω3、ω4分别为单次锤击入土深度h、锤桩激振力F、单位深度锤击次数n和累计锤击次数N的权重;步骤S22,建立沉桩精确度的奖励值函数:根据打桩深度要求,沉桩深度的误差应尽可能小,为此设计奖励值函数来引导智能体逐步达到目标;沉桩精确度的奖励值函数如下:式中,h
e
=H
‑
E(H)为累计下沉深度与目标深度之间的差值,这个奖励值函数会在误差越小的情况下给出越多的奖励,在超过深度值时给予惩罚,用三次方增强对超出深度值时的
敏感性;步骤S23,建立垂直度要求的奖励值函数:根据打桩施工对垂直度的要求,桩身的倾斜应保持在一定范围内;垂直度要求的奖励值函数如下:式中,为垂直度要求与实际倾斜度的差值,对于长度<10m的短桩,应保证垂直度控制在5
‰
或10mm以内,E(x)、E(y)分别为标定的打桩位置中心;步骤S24,构造奖赏函数基于以上步骤S22
‑
步骤S24的各函数来构造液压锤桩系统的奖赏函数,定义为:R=ω
′1R1+ω
′2R2+ω
′3R3上式中,ω
′1,ω
′2,ω
′3分别为打桩效率、沉桩精确度以及垂直度要求的权重。4.按照权利要求1所述的自适应工况打桩控制方法,其特征在于,步骤S3中的SAC强化学习算法由一个Actor网络,两个Critic网络和两个Target
‑
Critic网络组成;其中一个Critic网络为状态价值估计V,其中一个Target
‑
Critic网络为TargetV网络,将它们用VCritic表示;另一个Critic网络为动作
‑
状态价值估计Q,另一个Target
‑
Critic网络为TargetQ网络,将它们用QCritic表示;SAC强化学习算法的原理如下:(1)SAC强化学习算法的目标函数J*(π...
【专利技术属性】
技术研发人员:蒙艳玫,陈世锋,韦锦,董振,李科,司永明,李涛涛,张金来,张婷婷,陈贵,张佳承,
申请(专利权)人:广西大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。