基于深度强化学习的绞吸挖泥船横移过程控制系统及方法技术方案

技术编号：19339920 阅读：25 留言：0更新日期：2018-11-07 13:06

本发明专利技术涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法，其首先需收集绞吸挖泥船决策系统的大量数据，构成基于深度强化学习的横移控制模型的原始数据；将收集到的原始数据进行分析，并挑选其中对横移过程影响较大的参数，组成多元的训练数据组；利用挑选出的数据训练神经网络，构建横移过程控制的环境模型；结合环境模型，对深度强化学习的横移过程控制模型进行离线训练和学习，得到训练好的深度强化学习的横移过程控制模型；利用训练好的深度强化学习的横移过程控制模型，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。本发明专利技术不仅能够使横移过程控制更加智能化，而且操作过程更简单、灵活性较好、可快速寻优。

Control system and method for traversing process of cutter suction dredger based on deep reinforcement learning

The present invention relates to a cutter suction dredger transverse movement process control system and method based on deep reinforcement learning. Firstly, it needs to collect a large amount of data of cutter suction dredger decision-making system to form the original data of the cutter suction dredger transverse movement control model based on deep reinforcement learning. The parameters that have great influence on the process are composed of multiple training data sets; the selected data are used to train the neural network to construct the environment model for the control of the transverse process; combined with the environment model, the control model of the transverse process of deep reinforcement learning is trained and learned offline, and the transverse motion of the well-trained deep reinforcement learning is obtained. Procedure control model; Intelligent control of cutter suction dredger's transverse process based on depth reinforcement learning is carried out by using the well-trained depth reinforcement learning control model. The invention can not only make the control of the transverse movement process more intelligent, but also make the operation process simpler, has better flexibility and can quickly optimize.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
本专利技术涉及挖泥船控制领域，尤其是涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法。
技术介绍
挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中，绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时，横移切削过程受土质、环境、工况等复杂因素影响，难以用准确的数学模型表达其控制过程。疏浚作业时，横移切削是最为频繁的操作步骤，目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定，操作人员需要根据长期疏浚作业积累的经验来操作横移手柄，调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大，另外，疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。
技术实现思路
本专利技术的目的是针对现有技术存在的问题，提供一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法，其不仅能够使得横移控制更加智能化，而且控制过程更简单、灵活性高、寻优效率高。本专利技术的目的通过如下技术方案实现：本专利技术提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统，其特征在于，所述系统包括：横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络；所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度，执行深度强化学习的横移过程控制模型发送过来的最优横移速度，执行完成后等待固定时间，再将状态信息反馈给深度强化学习的横移过程控制模型。所述的深度强化学习的横移过程控制模型中的价值网...

【技术保护点】
1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统，其特征在于，所述系统包括：横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络；所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度，执行深度强化学习的横移过程控制模型发送过来的最优横移速度，执行完成后等待固定时间，再将状态信息反馈给深度强化学习的横移过程控制模型；所述的深度强化学习的横移过程控制模型中的价值网络，是根据真实横移过程环境反馈的状态信息，输出最优的横移动作返回给横移速度环境模型。

【技术特征摘要】
1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统，其特征在于，所述系统包括：横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络；所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度，执行深度强化学习的横移过程控制模型发送过来的最优横移速度，执行完成后等待固定时间，再将状态信息反馈给深度强化学习的横移过程控制模型；所述的深度强化学习的横移过程控制模型中的价值网络，是根据真实横移过程环境反馈的状态信息，输出最优的横移动作返回给横移速度环境模型。2.一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，利用权利要求1所述的系统，包括如下步骤：Step1，收集绞吸挖泥船决策系统的大量数据，构成基于深度强化学习的横移过程控制模型的原始数据；Step2，将收集到的原始数据进行绞吸挖泥船横移过程中产量形成机理分析，并构建横移过程控制的环境模型；Step3，结合横移过程环境模型，构建深度强化学习的横移过程控制模型中的价值网络；所述的价值网络，是根据当前状态并利用动作值函数，给出状态对应所有动作的价值，再根据该价值确定出当前状态下所有动作中最优的动作；Step4，对深度强化学习的横移过程控制模型进行离线训练和学习，得到训练好的深度强化学习的横移过程控制模型；Step5，将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制，其中，在运用于实际横移过程控制时，在横移过程环境模型中需加入一个横移速度控制器，以用于与挖泥船中的控制柜进行信息交换。3.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，所述步骤step2具体包括：所述多元的训练数据组包含参数：绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度；所述的环境模型给予强化学习智能体奖惩值和状态转移信息，并确定给出可供价值网络选择的动作空间。4.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法及系统，其特征在于，所述横移过程环境模型包括：状态转移、动作空间以及奖惩函数；所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作，来对当前时刻横移过程状态进行状态转移；所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围；所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值，奖惩函...

【专利技术属性】
技术研发人员：魏长赟，倪福生，陈秀静，蒋爽，顾磊，李洪彬，刘增辉，
申请(专利权)人：河海大学常州校区，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人