一种基于TD3强化学习算法的液压挖掘机用轨迹规划方法技术

技术编号:40772005 阅读:26 留言:0更新日期:2024-03-25 20:19
本申请涉及智能液压挖掘机技术领域,公开了一种基于TD3强化学习算法的液压挖掘机用轨迹规划方法,包括在不考虑回转作业的情况下,挖掘机工作装置在作业过程中以动臂、斗杆和铲斗三个关节之间耦合运动来实现铲斗齿尖末端的运动轨迹,将动臂、斗杆和铲斗每个关节作为单独的决策智能体,最终规划的作业轨迹是三个关节的决策序列;采用集中训练‑分布执行训练方式,将环境状态和三个智能体的联合动作作为训练过程中评价器决策网络的输入。通过不依赖于特定的插值策略模型,利用强化学习算法‑TD3算法可实现挖掘机的自主在线作业轨迹规划,不需要根据规划路径的目标点选择对应的插值策略模型,也就是避免了对复杂规划任务的精确建模。

【技术实现步骤摘要】

本专利技术涉及智能液压挖掘机,具体为一种基于td3强化学习算法的液压挖掘机用轨迹规划方法。


技术介绍

1、智能液压挖掘机的轨迹规划方法指的是通过算法和技术,使挖掘机能够自动规划并执行其运动轨迹,以实现特定任务。这种方法通常涉及传感器、计算机视觉和控制系统,帮助挖掘机在工作区域内进行移动、挖掘或执行其他操作。能够更智能、更高效地执行任务,减少人为干预的需要,并在复杂环境中提供更可靠的运动控制。

2、目前传统的智能液压挖掘机工作依赖于插值策略的最优轨迹规划方法,该方法在进行复杂环境下的挖掘作业时,需要对复杂任务进行规划并精确建模,导致实际使用过程中系统响应速率不够高效,任务的执行精度也存在差异,为此本专利技术提出一种基于td3强化学习算法的液压挖掘机用轨迹规划方法。


技术实现思路

1、针对现有技术的不足,本专利技术提供了一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,解决了现有技术中对复杂任务进行规划并精确建模,导致实际使用过程中系统响应速率不够高效,任务的执行精度也存在差异的问题。

...

【技术保护点】

1.一种基于TD3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于TD3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述步骤三中进行要素定义包括状态空间设计,以动臂、斗杆和铲斗关节的角度为状态参数,将初始关节角度作为策略网络的输入参数,根据动作策略网络输出对应的关节角度值的变化幅度计算获得下一个状态的角度值,其具体计算公式如下:

3.根据权利要求1所述的一种基于TD3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述步骤三中进行要素定义包括动作空间设计,定义策略网络的输出为关节角度变化幅度,且采取的...

【技术特征摘要】

1.一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述步骤三中进行要素定义包括状态空间设计,以动臂、斗杆和铲斗关节的角度为状态参数,将初始关节角度作为策略网络的输入参数,根据动作策略网络输出对应的关节角度值的变化幅度计算获得下一个状态的角度值,其具体计算公式如下:

3.根据权利要求1所述的一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述步骤三中进行要素定义包括动作空间设计,定义策略网络的输出为关节角度变化幅度,且采取的动作满足ai~n(0,1)正态分布,为了降低决策动作的难度,需要对输出信息进行离散化处理。

4.根据权利要求1所述的一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述步骤三中进行要素定义包括奖励函数设计,为了实现工作装置在其允许的工作范围内高效率、平稳的自主作业,设计智能体的奖励函数为:

5.根据权利要求4所述的一种基于td3强化学习算法的液压挖掘机用轨迹规划方法,其特征在于,所述奖励函数中θ2<θ2min,θ2>θ2max和为布尔表达式,即当动臂关节角度和角速度值在允许运动范围内时,布尔表达式结果为0,反之,当动臂关节角度和角速度值超过允许范围时,布尔表达式的结果为1。

【专利技术属性】
技术研发人员:张韵悦赵志诚范宇坤杨凯武紫东
申请(专利权)人:太原工业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1