一种基于深度强化学习的碾米机运行优化控制方法技术

技术编号：36794474 阅读：16 留言：0更新日期：2023-03-08 22:56

本发明专利技术公开了一种基于深度强化学习的碾米机运行优化控制方法，具体包括以下步骤：S1、配置强化学习训练相关内容；S2、由深度强化学习模块进行训练，令智能体模拟与环境的交互进行大量实验，根据实验结果产生相应的回报，将得到的这些数据作为训练集训练，不断地优化模型，以增大回报的期望，最终达到收敛；S3、配置PID控制相关内容；本发明专利技术涉及优化控制方法技术领域。该基于深度强化学习的碾米机运行优化控制方法，利用基于强化学习的PID控制算法，对碾米机运行进行优化控制，相比于传统的PID控制，能够更快的收敛，取代了传统的人工参数整定，减少人力的同时削弱了人的主观因素，防止经验不足带来的低效控制。经验不足带来的低效控制。经验不足带来的低效控制。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的碾米机运行优化控制方法

[0001]本专利技术涉及优化控制方法
，具体为一种基于深度强化学习的碾米机运行优化控制方法。

技术介绍

[0002]稻谷是我国最重要的粮食，全国约有2/3人口以大米为主食，大米质量与人们的日常生活和健康息息相关，稻米生产是国家粮食安全的重中之重。工业化的大米加工生产一般需要经过原粮入库检查、称重、脱壳、碾米、色选、抛光、成品等工序。其中碾米机作为稻谷加工过程中的关键设备，在提高稻米产率和质量方面起着至关重要作用。
[0003]随着智能化技术的发展，稻米加工行业也开始走向智能化。智能化应用到碾米机控制中可以提高稻米产率等关键指标。现有碾米机控制系统常用的传统PID控制结构简单易操作，但是由于其非线性、时变不确定等特性，导致PID参数调节幅度大且不具备自学习能力，不能满足碾米机精确的智能控制系统要求。
[0004]目前经典的设备运行优化控制理论有开闭环控制、PID控制和微分方程等，这些理论直接应用在工程智能控制中存在很多短板，首先是控制方法无法解决多变量之间的协同问题，往往跟目标调控单变量后不能同时考虑其他变量的时空变化，大部分算法局限于单变量、定值操作。同时，控制方法无法处理参数耦合问题，系统中参数的数量增加，方法的收敛性会大幅减弱，无法达到实际应用的效果，最后由于环境问题的多变和复杂，建立好的控制方法随时面临变化，需要进行修改以适应新环境。
[0005]为了解决复杂系统的优化控制问题越来越多的学者使用深度强化学习来解决智能优化控制的问题。使...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的碾米机运行优化控制方法，其特征在于：具体包括以下步骤：S1、配置强化学习训练相关内容；S2、由深度强化学习模块进行训练，令智能体模拟与环境的交互进行大量实验，根据实验结果产生相应的回报，将得到的这些数据作为训练集训练，不断地优化模型，以增大回报的期望，最终达到收敛；S3、配置PID控制相关内容；S4、利用传感器等工具得到碾米机实时的控制信号值，并计算被控对象的当前值c(t)与目标值的差值，记为e(t)；S5、将e(t)输入状态转换器，计算得到Δe(t)和ΔΔe(t)，将e(t)、Δe(t)、ΔΔe(t)组成一个状态state，把state输入到训练好的A2C_RBF模型中，输出一个三维的量，即动作action；S6、根据计算出的action，修改PID控制器中相关参数的值。需要由动作修正器将action里的三个元素经过一个线性变化，得到三个量Δkp、Δki、Δkd，施加到PID控制器中的三个参数；S7、经过参数修改后的PID控制器，继续根据e(t)、Δe(t)、ΔΔe(t)输出下一轮的控制量u(t)，经过传递函数的辅助，作用到被控对象上，产生新的当前值y(t)、e(t)、Δe(t)、ΔΔe(t)，并反馈给状态转换器，反馈值记为c(t)，重复S4；S8、不断循环执行上述步骤，返回整个控制周期中受控对象的变化情况等信息并绘图。2.根据权利要求1所述的一种基于深度强化学习的碾米机运行优化...

【专利技术属性】
技术研发人员：张文，黎子梁，王佩文，史成洁，
申请(专利权)人：浙江砖助智连科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人