一种优化控制方法、装置、存储介质及电子设备制造方法及图纸

技术编号:33836454 阅读:25 留言:0更新日期:2022-06-16 11:53
本申请公开了一种优化控制方法、装置、存储介质及电子设备,基于预设优化策略将获取到的系统当前状态输入至预先构建的优化模型进行优化处理,得到优化控制动作推荐量,优化模型通过模型预测控制框架将动态特性模型、行为策略模型和动作值函数模型进行联合构建得到,基于优化控制动作推荐量执行对应的优化控制操作。基于上述,通过离线数据集进行优化模型的训练学习,在面对复杂目标函数与非线性动力学模型时,通过优化模型进行优化控制,提高数据的使用效率和优化控制的通用性。并且采用模型预测控制框架构建优化模型,即使面临新的控制任务目标或增加约束的控制任务,也无需对优化模型进行重新训练学习,提高优化控制方法的适应性和控制灵活性。适应性和控制灵活性。适应性和控制灵活性。

【技术实现步骤摘要】
一种优化控制方法、装置、存储介质及电子设备


[0001]本申请涉及自动控制
,更具体地说,涉及一种优化控制方法、装置、存储介质及电子设备。

技术介绍

[0002]在各行业的生产环节中,存在着大量的系统运行控制的环节:如机器人控制、农业机械的自动操作系统、智能制造的自动控制环节、工业行业中能源、化工、冶金等领域中的各种运行控制系统等。通过对上述各个控制系统的优化控制,可提高资源的利用效率,减少时间、材料和能源等浪费,提升工业行业的竞争力并实现节能减排的绿色发展目标,对行业发展进步具有重大的意义。
[0003]在工业控制应用中传统的优化控制方法,如比例积分微分(Proportional Integral Derivative,PID)控制器和模型预测控制(Model Predictive Control,MPC)。
[0004]在复杂控制系统的优化问题中,传统的优化控制方法的效果欠佳。一方面,传统的优化控制方法本身的求解能力限制了其在面对日益复杂的控制系统时的优化效果;另一方面,传统的优化控制方法缺乏对控制系统中沉淀的海量数据的有效利用,且在模型设计时严重依赖人的经验、理论推导或与真实环境一致的仿真环境,面对复杂的目标和非线性动力学模型时,求解困难且低效,使得这类控制方法缺少通用性。并且,控制系统离线策略的学习过程需要大量的计算资源,在有限计算资源的场景下应用受限;面对控制任务目标的变化缺少适应性,控制灵活性较差。
[0005]因此,现有的优化控制方法的通用性差且控制灵活性差。
专利
技术实现思路

[0006]有鉴于此,本申请公开了一种优化控制方法、装置、存储介质及电子设备,旨在提高优化控制方法的通用性、适应性和控制灵活性。
[0007]为了实现上述目的,其公开的技术方案如下:
[0008]本申请第一方面公开了一种优化控制方法,所述方法包括:
[0009]获取控制系统的系统当前状态;
[0010]基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行优化处理,得到优化控制动作推荐量;所述优化模型通过模型预测控制框架,将预先构建的动态特性模型、预先构建的行为策略模型和预先构建的动作值函数模型进行联合构建得到;
[0011]基于所述优化控制动作推荐量执行对应的优化控制操作。
[0012]优选的,所述基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行处理,得到优化控制动作推荐量,包括:
[0013]基于所述动态特性模型和所述行为策略模型进行轨迹采样,得到N条控制轨迹;所述N为大于等于1的整数;
[0014]获取所述N条控制轨迹的原始轨迹序列;
[0015]从所述原始轨迹序列中选取符合预设条件的目标轨迹序列集合;
[0016]对所述目标轨迹序列集合中各条轨迹进行轨迹优化,得到优化动作序列;
[0017]在所述系统当前状态下,选取所述优化动作序列中的当前时刻的动作作为优化控制动作推荐量。
[0018]优选的,所述对所述目标轨迹序列集合中各条轨迹进行轨迹优化,得到优化动作序列,包括:
[0019]对所述目标轨迹序列集合中各条轨迹的奖励值进行求和,得到累积奖励值;
[0020]通过所述累积奖励值对所述目标轨迹序列集合中各条轨迹的动作进行加权计算,得到优化动作序列。
[0021]优选的,所述动态特性模型的构建过程,包括:
[0022]获取控制系统的离线数据集;所述离线数据集用于表征所述控制系统在预设历史时段中所积累的系统特征数据的集合;
[0023]通过深度神经网络、所述系统当前状态、所述系统当前状态下的执行动作、当前奖励值和系统下一时刻的状态,构建所述动态特性模型,并基于所述离线数据集对所述动态特性模型进行离线训练。
[0024]优选的,所述行为策略模型的构建过程,包括:
[0025]获取控制系统的离线数据集;所述离线数据集用于表征所述控制系统在预设历史时段中所积累的系统特征数据的集合;
[0026]通过深度神经网络、所述系统当前状态和所述系统当前状态下的执行动作构建所述行为策略模型,并基于所述离线数据集对所述行为策略模型进行离线训练。
[0027]优选的,所述动作值函数模型的构建过程包括:
[0028]获取控制系统的离线数据集;所述离线数据集用于表征所述控制系统在预设历史时段中所积累的系统特征数据的集合;
[0029]通过所述离线数据集和拟合的价值函数评估FQE,构建所述动作值函数模型。
[0030]优选的,还包括:
[0031]若监测的所述控制系统的控制任务发生变化,基于目标适应控制策略和/或约束控制策略对所述优化控制动作推荐量进行调整。
[0032]本申请第二方面公开了一种优化控制装置,所述装置包括:
[0033]获取单元,用于获取控制系统的系统当前状态;
[0034]处理单元,用于基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行优化处理,得到优化控制动作推荐量;所述优化模型通过模型预测控制框架,将预先构建的动态特性模型、预先构建的行为策略模型和预先构建的动作值函数模型进行联合构建得到;
[0035]执行单元,用于基于所述优化控制动作推荐量执行对应的优化控制操作。
[0036]本申请第三方面公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的优化控制方法。
[0037]本申请第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器
执行如第一方面任意一项所述的优化控制方法。
[0038]经由上述技术方案可知,本申请公开了一种优化控制方法、装置、存储介质及电子设备,获取控制系统的系统当前状态,基于预设优化策略将系统当前状态输入至预先构建的优化模型进行处理,得到优化控制动作推荐量,优化模型通过模型预测控制框架,将预先构建的动态特性模型、预先构建的行为策略模型和预先构建的动作值函数模型进行联合构建得到,基于优化控制动作推荐量执行对应的优化控制操作。基于上述方案,通过离线数据集进行优化模型的训练学习,在面对复杂的目标函数与非线性动力学模型时,通过优化模型进行优化控制,提高数据的使用效率和优化控制的通用性。并且采用模型预测控制框架构建优化模型,即使面临新的控制任务目标或增加约束的控制任务,也无需对优化模型进行重新训练学习,提高优化控制的适应性和控制灵活性。
附图说明
[0039]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0040]图1为本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化控制方法,其特征在于,所述方法包括:获取控制系统的系统当前状态;基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行优化处理,得到优化控制动作推荐量;所述优化模型通过模型预测控制框架,将预先构建的动态特性模型、预先构建的行为策略模型和预先构建的动作值函数模型进行联合构建得到;基于所述优化控制动作推荐量执行对应的优化控制操作。2.根据权利要求1所述的方法,其特征在于,所述基于预设优化策略将所述系统当前状态输入至预先构建的优化模型进行处理,得到优化控制动作推荐量,包括:基于所述动态特性模型和所述行为策略模型进行轨迹采样,得到N条控制轨迹;所述N为大于等于1的整数;获取所述N条控制轨迹的原始轨迹序列;从所述原始轨迹序列中选取符合预设条件的目标轨迹序列集合;对所述目标轨迹序列集合中各条轨迹进行轨迹优化,得到优化动作序列;在所述系统当前状态下,选取所述优化动作序列中的当前时刻的动作作为优化控制动作推荐量。3.根据权利要求2所述的方法,其特征在于,所述对所述目标轨迹序列集合中各条轨迹进行轨迹优化,得到优化动作序列,包括:对所述目标轨迹序列集合中各条轨迹的奖励值进行求和,得到累积奖励值;通过所述累积奖励值对所述目标轨迹序列集合中各条轨迹的动作进行加权计算,得到优化动作序列。4.根据权利要求1所述的方法,其特征在于,所述动态特性模型的构建过程,包括:获取控制系统的离线数据集;所述离线数据集用于表征所述控制系统在预设历史时段中所积累的系统特征数据的集合;通过深度神经网络、所述系统当前状态、所述系统当前状态下的执行动作、当前奖励值和系统下一时刻的状态,构建所述动态特性模型,并基于所述离线数据集对所述动态特性模型进行离线训练。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:朱翔宇殷宏磊徐浩然郑宇
申请(专利权)人:京东城市北京数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1