一种优化控制方法、装置、存储介质及电子设备制造方法及图纸

技术编号：33836454 阅读：25 留言：0更新日期：2022-06-16 11:53

本申请公开了一种优化控制方法、装置、存储介质及电子设备，基于预设优化策略将获取到的系统当前状态输入至预先构建的优化模型进行优化处理，得到优化控制动作推荐量，优化模型通过模型预测控制框架将动态特性模型、行为策略模型和动作值函数模型进行联合构建得到，基于优化控制动作推荐量执行对应的优化控制操作。基于上述，通过离线数据集进行优化模型的训练学习，在面对复杂目标函数与非线性动力学模型时，通过优化模型进行优化控制，提高数据的使用效率和优化控制的通用性。并且采用模型预测控制框架构建优化模型，即使面临新的控制任务目标或增加约束的控制任务，也无需对优化模型进行重新训练学习，提高优化控制方法的适应性和控制灵活性。适应性和控制灵活性。适应性和控制灵活性。

全部详细技术资料下载

【技术实现步骤摘要】
一种优化控制方法、装置、存储介质及电子设备

[0001]本申请涉及自动控制
，更具体地说，涉及一种优化控制方法、装置、存储介质及电子设备。

技术介绍

[0002]在各行业的生产环节中，存在着大量的系统运行控制的环节：如机器人控制、农业机械的自动操作系统、智能制造的自动控制环节、工业行业中能源、化工、冶金等领域中的各种运行控制系统等。通过对上述各个控制系统的优化控制，可提高资源的利用效率，减少时间、材料和能源等浪费，提升工业行业的竞争力并实现节能减排的绿色发展目标，对行业发展进步具有重大的意义。
[0003]在工业控制应用中传统的优化控制方法，如比例积分微分(Proportional Integral Derivative，PID)控制器和模型预测控制(Model Predictive Control，MPC)。
[0004]在复杂控制系统的优化问题中，传统的优化控制方法的效果欠佳。一方面，传统的优化控制方法本身的求解能力限制了其在面对日益复杂的控制系统时的优化效果；另一方面，传统的优化控制方法缺乏对控制系统中沉淀的海量数据的有效利用，且在模型设计时严重依赖人的经验、理论推导或与真实环境一致的仿真环境，面对复杂的目标和非线性动力学模型时，求解困难且低效，使得这类控制方法缺少通用性。并且，控制系统离线策略的学习过程需要大量的计算资源，在有限计算资源的场景下应用受限；面对控制任务目标的变化缺少适应性，控制灵活性较差。
[0005]因此，现有的优化控制方法的通用性差且控制灵活性差。
专利...

【技术保护点】

【技术特征摘要】
1.一种优化控制方法，其特征在于，所述方法包括：获取控制系统的系统当前状态；基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行优化处理，得到优化控制动作推荐量；所述优化模型通过模型预测控制框架，将预先构建的动态特性模型、预先构建的行为策略模型和预先构建的动作值函数模型进行联合构建得到；基于所述优化控制动作推荐量执行对应的优化控制操作。2.根据权利要求1所述的方法，其特征在于，所述基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行处理，得到优化控制动作推荐量，包括：基于所述动态特性模型和所述行为策略模型进行轨迹采样，得到N条控制轨迹；所述N为大于等于1的整数；获取所述N条控制轨迹的原始轨迹序列；从所述原始轨迹序列中选取符合预设条件的目标轨迹序列集合；对所述目标轨迹序列集合中各条轨迹进行轨迹优化，得到优化动作序列；在所述系统当前状态下，选取所述优化动作序列中的当前时刻的动作作为优化控制动作推荐量。3.根据权利要求2所述的方法，其特征在于，所述对所述目标轨迹序列集合中各条轨迹进行轨迹优化，得到优化动作序列，包括：对所述目标轨迹序列集合中各条轨迹的奖励值进行求和，得到累积奖励值；通过所述累积奖励值对所述目标轨迹序列集合中各条轨迹的动作进行加权计算，得到优化动作序列。4.根据权利要求1所述的方法，其特征在于，所述动态特性模型的构建过程，包括：获取控制系统的离线数据集；所述离线数据集用于表征所述控制系统在预设历史时段中所积累的系统特征数据的集合；通过深度神经网络、所述系统当前状态、所述系统当前状态下的执行动作、当前奖励值和系统下一时刻的状态，构建所述动态特性模型，并基于所述离线数据集对所述动态特性模型进行离线训练。5.根据权利要求1所述...

【专利技术属性】
技术研发人员：朱翔宇，殷宏磊，徐浩然，郑宇，
申请(专利权)人：京东城市北京数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人