基于强化学习的工业控制方法、装置、系统和电子设备制造方法及图纸

技术编号：34082521 阅读：16 留言：0更新日期：2022-07-11 19:13

本发明专利技术实施例公开了一种基于强化学习的工业控制方法、装置、系统和电子设备，该方法包括：获取工业设备的当前运行数据；基于工业设备对应的目标控制决策模型和当前运行数据，确定目标控制信息，其中，目标控制决策模型是预先基于工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，工业设备对应的目标虚拟环境模型是基于工业设备的历史运行数据进行环境建模获得的；将目标控制信息发送至工业设备，以使工业设备基于目标控制信息进行运行。通过本发明专利技术实施例的技术方案，可以有效保证工业控制的准确性和效率。可以有效保证工业控制的准确性和效率。可以有效保证工业控制的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的工业控制方法、装置、系统和电子设备

[0001]本专利技术实施例涉及计算机技术，尤其涉及一种基于强化学习的工业控制方法、装置、系统和电子设备。

技术介绍

[0002]工业控制器可以用于控制工业生产流程中的工业设备，以保证工业设备的正常运行。通常，工业控制器可以基于模型预测控制MPC（Model Predictive Control）方式进行工业控制。MPC方式包括两部分，一部分是用于预测未来状态的预测模型，另一部分是基于未来状态求解最优控制的优化器。
[0003]目前，现有MPC方式中的预测模型是基于人工经验手动建模获得的，其模型精度严重依赖于人工经验，并且建模时间长以及成本高。而且，现有的优化器求解过程耗时较长，并且对于非线性的包含复杂约束的情况难以求解。可见，现有的工业控制方式无法有效保证工业控制的准确性和效率。

技术实现思路

[0004]本专利技术实施例提供了一种基于强化学习的工业控制方法、装置、系统和电子设备，以有效保证工业控制的准确性和效率。
[0005]根据本专利技术的一方面，提供了一种基于强化学习的工业控制方法，包括：获取工业设备的当前运行数据；基于所述工业设备对应的目标控制决策模型和所述当前运行数据，确定目标控制信息，其中，所述目标控制决策模型是预先基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，所述工业设备对应的目标虚拟环境模型是基于所述工业设备的历史运行数据进行环境建模获得的；将所述目标控制信息发送至所述工业设备，以使所述工...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的工业控制方法，其特征在于，包括：获取工业设备的当前运行数据；基于所述工业设备对应的目标控制决策模型和所述当前运行数据，确定目标控制信息，其中，所述目标控制决策模型是预先基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习获得的，所述工业设备对应的目标虚拟环境模型是基于所述工业设备的历史运行数据进行环境建模获得的；将所述目标控制信息发送至所述工业设备，以使所述工业设备基于所述目标控制信息进行运行。2.根据权利要求1所述的方法，其特征在于，基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，包括：对所述历史运行数据进行预处理，确定历史运行轨迹时序信息；对所述历史运行轨迹时序信息进行信息分析，创建初始虚拟环境模型；基于生成对抗训练方式和所述历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的所述工业设备对应的目标虚拟环境模型。3.根据权利要求2所述的方法，其特征在于，基于生成对抗训练方式和所述历史运行轨迹时序信息，对初始虚拟环境模型进行训练，获得训练结束后的所述工业设备对应的目标虚拟环境模型，包括：基于所述历史运行轨迹时序信息，确定样本输入数据和所述样本输入数据对应的状态标签数据；将初始虚拟环境模型作为生成对抗网络中的生成器，并将所述样本输入数据输入至所述初始虚拟环境模型中，获得所述初始虚拟环境模型输出的预测状态数据；将所述预测状态数据输入至生成对抗网络中的判别器中，获得所述判别器输出的判别结果；基于所述判别结果与所述状态标签数据，对所述初始虚拟环境模型和所述判别器进行交替训练，直至达到预设收敛条件时训练结束，获得所述工业设备对应的目标虚拟环境模型。4.根据权利要求1所述的方法，其特征在于，基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型，包括：确定预设控制决策模型对应的控制参数搜索空间；确定所述预设控制决策模型对应的目标奖励函数；基于所述目标奖励函数、所述控制参数搜索空间和所述工业设备对应的目标虚拟环境模型，对所述预设控制决策模型进行强化学习，获得所述目标控制决策模型。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，基于所述工业设备的历史运行数据进行环境建模，获得所述工业设备对应的目标虚拟环境模型，基于所述工业设备对应的目标虚拟环境模型对预设控制决策模型进行强化学习，获得所述目标控制决策模型，包括：获取所述工业设备的历史运行数据；将所...

【专利技术属性】
技术研发人员：薛飞，邹晓川，
申请(专利权)人：南栖仙策南京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人