一种基于深度强化学习的碾米机运行优化控制方法技术

技术编号:36794474 阅读:16 留言:0更新日期:2023-03-08 22:56
本发明专利技术公开了一种基于深度强化学习的碾米机运行优化控制方法,具体包括以下步骤:S1、配置强化学习训练相关内容;S2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;S3、配置PID控制相关内容;本发明专利技术涉及优化控制方法技术领域。该基于深度强化学习的碾米机运行优化控制方法,利用基于强化学习的PID控制算法,对碾米机运行进行优化控制,相比于传统的PID控制,能够更快的收敛,取代了传统的人工参数整定,减少人力的同时削弱了人的主观因素,防止经验不足带来的低效控制。经验不足带来的低效控制。经验不足带来的低效控制。

【技术实现步骤摘要】
一种基于深度强化学习的碾米机运行优化控制方法


[0001]本专利技术涉及优化控制方法
,具体为一种基于深度强化学习的碾米机运行优化控制方法。

技术介绍

[0002]稻谷是我国最重要的粮食,全国约有2/3人口以大米为主食,大米质量与人们的日常生活和健康息息相关,稻米生产是国家粮食安全的重中之重。工业化的大米加工生产一般需要经过原粮入库检查、称重、脱壳、碾米、色选、抛光、成品等工序。其中碾米机作为稻谷加工过程中的关键设备,在提高稻米产率和质量方面起着至关重要作用。
[0003]随着智能化技术的发展,稻米加工行业也开始走向智能化。智能化应用到碾米机控制中可以提高稻米产率等关键指标。现有碾米机控制系统常用的传统PID控制结构简单易操作,但是由于其非线性、时变不确定等特性,导致PID参数调节幅度大且不具备自学习能力,不能满足碾米机精确的智能控制系统要求。
[0004]目前经典的设备运行优化控制理论有开闭环控制、PID控制和微分方程等,这些理论直接应用在工程智能控制中存在很多短板,首先是控制方法无法解决多变量之间的协同问题,往往跟目标调控单变量后不能同时考虑其他变量的时空变化,大部分算法局限于单变量、定值操作。同时,控制方法无法处理参数耦合问题,系统中参数的数量增加,方法的收敛性会大幅减弱,无法达到实际应用的效果,最后由于环境问题的多变和复杂,建立好的控制方法随时面临变化,需要进行修改以适应新环境。
[0005]为了解决复杂系统的优化控制问题越来越多的学者使用深度强化学习来解决智能优化控制的问题。使用深度强化学习来调节PID参数。强化学习是在和环境交互中通过观察环境提供的状态和反馈来实现策略的学习。在某一个时刻,环境处于某一状态State,智能体针对当前状态采取一个动作Action后,环境的状态发生改变,同时向智能体反馈奖励信息Reward。最终目的通过与环境的不断地交互,找到最佳策略,以获得最多的奖励。深度强化学习就是结合深度神经网络的强化学习,A2C_RBF的深度强化学习方法就可以解决连续状态和连续空间动作的问题。A2C_RBF深度强化学习方法基于Actor

Critic算法,A2C算法利用多线程并行独立采样数据,在保证数据多样性的同时还可以提高学习效率,不必占用大块内存,更方便工业落地,同时在A2C算法中加入RBF神经网络可以解决传统算法收敛速度慢,收敛精度差的问题。
[0006]本专利技术拟在传统控制理论的基础上,引入神经网络、强化学习等人工智能算法,构建可实现自调节自优化碾米机运行优化控制方法。

技术实现思路

[0007]针对现有技术的不足,本专利技术提供了一种基于深度强化学习的碾米机运行优化控制方法,解决了碾米机运行优化控制方法效果不是很好的问题。
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于深度强化学习的
碾米机运行优化控制方法,具体包括以下步骤:
[0009]S1、配置强化学习训练相关内容;
[0010]S2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;
[0011]S3、配置PID控制相关内容;
[0012]S4、利用传感器等工具得到碾米机实时的控制信号值,并计算被控对象的当前值c(t)与目标值的差值,记为e(t);
[0013]S5、将e(t)输入状态转换器,计算得到Δe(t)和ΔΔe(t),将e(t)、Δe(t)、ΔΔe(t)组成一个状态state,把state输入到训练好的A2C_RBF模型中,输出一个三维的量,即动作action;
[0014]S6、根据计算出的action,修改PID控制器中相关参数的值。需要由动作修正器将action里的三个元素经过一个线性变化,得到三个量Δkp、Δki、Δkd,施加到PID控制器中的三个参数;
[0015]S7、经过参数修改后的PID控制器,继续根据e(t)、Δe(t)、ΔΔe(t)输出下一轮的控制量u(t),经过传递函数的辅助,作用到被控对象上,产生新的当前值y(t)、e(t)、Δe(t)、ΔΔe(t),并反馈给状态转换器,反馈值记为c(t),重复S4;
[0016]S8、不断循环执行上述步骤,返回整个控制周期中受控对象的变化情况等信息并绘图。
[0017]优选的,所述S1中,配置强化学习训练相关内容的步骤具体如下:
[0018]步骤1、固定随机种子seed,保证每次实验产生的随机数相同,使实验可复现;
[0019]步骤2、设定模型的保存方式;
[0020]步骤3、设置学习率、强化学习的折扣率、迭代轮数、神经网络隐藏层个数等。
[0021]优选的,所述S3中,配置PID控制相关内容具体包括以下步骤:
[0022]步骤1、根据碾米机(被控对象)工作的特点设置PID控制的时长,即相隔多长时间进行一次控制;设置PID控制器中的参数kp、ki、kd的初始值;
[0023]步骤2、确定控制信号u(t)以及目标函数r(t),若智能模型最终目标为提高去糠率、留胚率,实现流量平衡等指标,控制信号则为影响该指标的相关参数,如:主电机转速、进口阀门开度、碾磨电流、负压风机转速等。目标函数r(t)描述了被控对象的期望输出值;
[0024]步骤3、根据碾米机的数学、物理模型推导出被控对象的传递函数,或是构建专家系统,从而获取控制信号与输出值(指标的具体数值)的对应关系。
[0025]优选的,所述S5中,Δe(t)表示本时刻与上一时刻e(t)之间的差值,ΔΔe(t)则表示Δe(t)的差值。
[0026]优选的,所述S6中,动作修正器的设定根据经验或者专家系统得出。
[0027]有益效果
[0028]本专利技术提供了一种基于深度强化学习的碾米机运行优化控制方法。与现有技术相比具备以下有益效果:
[0029](1)、该基于深度强化学习的碾米机运行优化控制方法,通过S1、配置强化学习训练相关内容;S2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实
验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;S3、配置PID控制相关内容;利用基于强化学习的PID控制算法,对碾米机运行进行优化控制,相比于传统的PID控制,能够更快的收敛。
[0030](2)、该基于深度强化学习的碾米机运行优化控制方法,通过强化学习的参数整定,取代了传统的人工参数整定,减少人力的同时削弱了人的主观因素,防止经验不足带来的低效控制。
附图说明
[0031]图1为本专利技术碾米机运行优化控制方法的流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的碾米机运行优化控制方法,其特征在于:具体包括以下步骤:S1、配置强化学习训练相关内容;S2、由深度强化学习模块进行训练,令智能体模拟与环境的交互进行大量实验,根据实验结果产生相应的回报,将得到的这些数据作为训练集训练,不断地优化模型,以增大回报的期望,最终达到收敛;S3、配置PID控制相关内容;S4、利用传感器等工具得到碾米机实时的控制信号值,并计算被控对象的当前值c(t)与目标值的差值,记为e(t);S5、将e(t)输入状态转换器,计算得到Δe(t)和ΔΔe(t),将e(t)、Δe(t)、ΔΔe(t)组成一个状态state,把state输入到训练好的A2C_RBF模型中,输出一个三维的量,即动作action;S6、根据计算出的action,修改PID控制器中相关参数的值。需要由动作修正器将action里的三个元素经过一个线性变化,得到三个量Δkp、Δki、Δkd,施加到PID控制器中的三个参数;S7、经过参数修改后的PID控制器,继续根据e(t)、Δe(t)、ΔΔe(t)输出下一轮的控制量u(t),经过传递函数的辅助,作用到被控对象上,产生新的当前值y(t)、e(t)、Δe(t)、ΔΔe(t),并反馈给状态转换器,反馈值记为c(t),重复S4;S8、不断循环执行上述步骤,返回整个控制周期中受控对象的变化情况等信息并绘图。2.根据权利要求1所述的一种基于深度强化学习的碾米机运行优化...

【专利技术属性】
技术研发人员:张文黎子梁王佩文史成洁
申请(专利权)人:浙江砖助智连科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1