基于深度强化学习的绞吸挖泥船横移过程控制系统及方法技术方案

技术编号:19339920 阅读:25 留言:0更新日期:2018-11-07 13:06
本发明专利技术涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法,其首先需收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移控制模型的原始数据;将收集到的原始数据进行分析,并挑选其中对横移过程影响较大的参数,组成多元的训练数据组;利用挑选出的数据训练神经网络,构建横移过程控制的环境模型;结合环境模型,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;利用训练好的深度强化学习的横移过程控制模型,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。本发明专利技术不仅能够使横移过程控制更加智能化,而且操作过程更简单、灵活性较好、可快速寻优。

Control system and method for traversing process of cutter suction dredger based on deep reinforcement learning

The present invention relates to a cutter suction dredger transverse movement process control system and method based on deep reinforcement learning. Firstly, it needs to collect a large amount of data of cutter suction dredger decision-making system to form the original data of the cutter suction dredger transverse movement control model based on deep reinforcement learning. The parameters that have great influence on the process are composed of multiple training data sets; the selected data are used to train the neural network to construct the environment model for the control of the transverse process; combined with the environment model, the control model of the transverse process of deep reinforcement learning is trained and learned offline, and the transverse motion of the well-trained deep reinforcement learning is obtained. Procedure control model; Intelligent control of cutter suction dredger's transverse process based on depth reinforcement learning is carried out by using the well-trained depth reinforcement learning control model. The invention can not only make the control of the transverse movement process more intelligent, but also make the operation process simpler, has better flexibility and can quickly optimize.

【技术实现步骤摘要】
基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
本专利技术涉及挖泥船控制领域,尤其是涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法。
技术介绍
挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中,绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时,横移切削过程受土质、环境、工况等复杂因素影响,难以用准确的数学模型表达其控制过程。疏浚作业时,横移切削是最为频繁的操作步骤,目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定,操作人员需要根据长期疏浚作业积累的经验来操作横移手柄,调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大,另外,疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。
技术实现思路
本专利技术的目的是针对现有技术存在的问题,提供一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法,其不仅能够使得横移控制更加智能化,而且控制过程更简单、灵活性高、寻优效率高。本专利技术的目的通过如下技术方案实现:本专利技术提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,其特征在于,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型。所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型。一种基于深度强化学习的绞吸挖泥船横移过程控制方法,其包括:Step1,收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移过程控制模型的原始数据;Step2,在实际疏浚生产中,挖泥船产量在一定程度上体现挖泥船的性能。将收集到的原始数据进行理论分析,绞吸挖泥船的产量W=流量Q*泥浆浓度Cw*时间t,而挖泥船的产量是由绞刀切削的泥砂质量决定的,泥砂体积量V=比例因子k*切削宽度bc*切削深度hc*横移速度VS,其中由电机驱动的绞刀性能直接反映其切削能力,吸入真空数实时反映挖泥船的产量率。选择其中对横移过程具有影响的参数(绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度)组成多元的训练数据组,并构建横移过程控制的环境模型;Step3,结合横移过程环境模型,构建深度强化学习的横移过程控制模型中的价值网络;所述的价值网络,是根据当前状态并利用动作值函数,给出状态对应所有动作的价值,再根据该价值确定出当前状态下所有动作中最优的动作;Step4,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;Step5,将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制,其中,在运用于实际横移过程控制时,在横移过程环境模型中需加入一个横移速度控制器,以用于与挖泥船中的控制柜进行信息交换。所述的环境模型给予强化学习智能体奖惩值和状态转移信息,并确定给出可供价值网络选择的动作空间。所述横移过程环境模型包括:状态转移、动作空间以及奖惩函数;所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作,来对当前时刻横移过程状态进行状态转移;所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围;所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值,奖惩函数的输出端连接价值网络的输入端;所述奖惩函数根据横移过程的优化目标进行设定;所述横移过程的优化目标包括:泥浆浓度高于45%,且吸入真空∈(30,70)bar、绞刀电机电流∈(920,960)A。更优选地,所述奖惩函数可用下式表示:其中,r为奖惩值;Id为绞刀电机电流(单位:A);b为吸入真空(单位:bar);Cv为泥浆浓度(单位:%)。更优选地,所述步骤step3中利用深度神经网络构建价值网络,以逼近价值函数;所述价值网络用于抽象横移过程中状态,并输出在该状态下对应不同动作时价值,然后在所有动作值中选择动作值最优的动作,将动作反馈给环境模型。更优选地,所述步骤step4中对深度强化学习的横移过程控制模型进行离线训练和学习的具体步骤如下:价值网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,即横移速度,价值网络可选择的动作范围由环境模型中的动作空间确定,价值网络选择的最优动作反馈给环境模型;横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;如此不断迭代进行训练和学习,最终使得深度强化学习模型得以收敛。更优选地,所述步骤step5中的横移速度控制器根据在实际的横移过程环境中控制柜采集到的所有状态信息,输出当前时刻横移过程控制模型所需的各个参数的状态信息,将其传给深度强化学习的价值网络,价值网络根据输入的状态信息输出最优的横移动作,然后将该动作反馈给横移过程控制器;横移速度控制器收到最优的横移动作后,执行该动作,等待固定时间再次采集各个参数值;横移速度控制器将当前环境状态信息发送到深度强化学习的横移过程控制模型,并获取新的最优横移动作,如此不断循环。更优选地,所述根据输入的状态信息输出最优的横移动作的过程具体包括:横移深度强化学习模型中的价值网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。由上述本专利技术的技术方案可以看出,本专利技术具有如下技术效果:(1)其结合了深度学习和强化学习的优势,仅需要环境模型的信息进行自学习的模型训练,极少依赖人工经验;(2)深度强化学习模型中的深度神经网络具有极强的状态表征能力,在不同横移状态下的适应性更强;(3)深度强化学习模型可根据横移过程控制优化目标来涉及奖惩函数,能够满足多目标优化复杂问题的需求,其奖惩函数的涉及具有较强的灵活性;(4)通过训练好的深度强化学习的横移过程控制模型进行横移智能控制应用,只需要根据实际的横移过程环境状态信息输入到训练好的深度强化学习的横移过程控制模型中,即可获得当前最优横移动作,使得横移过程更加智能化。附图说明图1为本专利技术中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法的流程图;图2为本专利技术中横移控制的深度强化学习模型的结构框图;图3为本专利技术中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制应用的结构框图。具体实施方式以下将结合附图对本专利技术的技术方案做进一步详细说明。本专利技术提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型。所述的深度强化学习的本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,其特征在于,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型;所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型。

【技术特征摘要】
1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,其特征在于,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型;所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型。2.一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,利用权利要求1所述的系统,包括如下步骤:Step1,收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移过程控制模型的原始数据;Step2,将收集到的原始数据进行绞吸挖泥船横移过程中产量形成机理分析,并构建横移过程控制的环境模型;Step3,结合横移过程环境模型,构建深度强化学习的横移过程控制模型中的价值网络;所述的价值网络,是根据当前状态并利用动作值函数,给出状态对应所有动作的价值,再根据该价值确定出当前状态下所有动作中最优的动作;Step4,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;Step5,将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制,其中,在运用于实际横移过程控制时,在横移过程环境模型中需加入一个横移速度控制器,以用于与挖泥船中的控制柜进行信息交换。3.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,所述步骤step2具体包括:所述多元的训练数据组包含参数:绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度;所述的环境模型给予强化学习智能体奖惩值和状态转移信息,并确定给出可供价值网络选择的动作空间。4.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法及系统,其特征在于,所述横移过程环境模型包括:状态转移、动作空间以及奖惩函数;所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作,来对当前时刻横移过程状态进行状态转移;所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围;所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值,奖惩函...

【专利技术属性】
技术研发人员:魏长赟倪福生陈秀静蒋爽顾磊李洪彬刘增辉
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1