控制策略的确定方法及装置、存储介质及电子设备制造方法及图纸

技术编号:29487663 阅读:25 留言:0更新日期:2021-07-30 18:58
本发明专利技术提供一种控制策略的确定方法及装置、存储介质及电子设备,该方法包括,获取多组系统数据,确定第一神经网络和第二神经网络,及第一神经网络对应的第一权重更新策略,和第二神经网络对应的第二权重更新策略。通过各组系统数据、第一权重更新策略及第二权重更新策略,分别对第一神经网络及第二神经网络进行训练,使得训练后的第一神经网络符合预设的第一收敛条件,且训练后的第二神经网络符合预设的第二收敛条件;以训练后的第一神经网络和训练后的第二神经网络,配置控制器,以使控制器在被控系统运行过程中,根据被控系统的实时系统状态,向被控系统输入控制信号。应用本发明专利技术的方法,无需求解复杂的贝尔曼方程,可便捷地确定控制策略。

【技术实现步骤摘要】
控制策略的确定方法及装置、存储介质及电子设备
本专利技术涉及控制
,特别是涉及一种控制策略的确定方法及装置、存储介质及电子设备。
技术介绍
随着控制技术的发展,在各个领域的工程应用中,常常需配置控制器对被控系统实行控制,使其趋于某种目标的稳定状态。而控制器通常是基于以策略函数为表达形式的控制策略进行设计的。在确定控制策略的过程中,通常会寻求最优控制,也就是在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值或极小值。故目前确定控制策略的方式,一般是通过动态规划实现的,也就是构建哈密顿-雅克比-贝尔曼(Hamilton-Jacobi-Bellman,HJB)方程,简称贝尔曼方程,以该方程的解确定控制策略,以配置控制器。在实际的工程应用中,被控系统通常是需考虑多个优化目标的非线性系统,系统中存在相互博弈的输入信号,如控制器的控制输入以及系统的干扰输入。对于上述系统,若是通过现有方式确定控制策略,会得到十分复杂的贝尔曼方程,难以求解。故在此情况下,通常难以确定所需的控制策略。
技术实现思路
有鉴于此,本专利技术实施例提供了一种控制策略的确定方法,以解决难以确定控制策略的问题。本专利技术实施例还提供了一种控制策略的确定装置,用以保证上述方法实际中的实现及应用。为实现上述目的,本专利技术实施例提供如下技术方案:一种控制策略的确定方法,包括:获取预先采集的多组系统数据,每组所述系统数据包括被控系统在输入激励信号的情况下,在预定信号采集时间点上所采集的所述激励信号的当前信号值,和所述被控系统的当前系统状态;确定预构建的第一神经网络和第二神经网络;确定所述第一神经网络对应的第一权重更新策略,和所述第二神经网络对应的第二权重更新策略,所述第一权重更新策略和所述第二权重更新策略,为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略;通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,使得训练后的第一神经网络符合预设的第一收敛条件,且训练后的第二神经网络符合预设的第二收敛条件;以所述训练后的第一神经网络和所述训练后的第二神经网络,配置控制器,以使已配置的控制器在所述被控系统运行过程中,根据所述被控系统的实时系统状态,向所述被控系统输入控制信号。上述的方法,可选的,所述通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,包括:按照预设的训练周期,分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新,在进入当前的训练周期时,基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件;基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略,更新当前的第一神经网络的权重,并判断更新后的第一神经网络是否符合所述第一收敛条件;若更新后的第一神经网络不符合所述第一收敛条件,则进入下一个训练周期,若更新后的第一神经网络符合所述第一收敛条件,则完成对所述第一神经网络和所述第二神经网络的训练。上述的方法,可选的,所述基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件,包括:在进入当前的迭代周期时,根据预设的第一参数计算模型和当前的第一神经网络,计算每组所述系统数据对应的第一计算参数和第二计算参数;所述第一参数计算模型为基于第一逼近误差方程中的各个参数项所构建的计算模型,所述第一逼近误差方程为基于神经网络的函数逼近策略和第一贝尔曼方程所确定的误差方程,所述第一贝尔曼方程为所述离策略的强化学习算法中用于优化第一输入信号的贝尔曼方程;依据预设的第一权重计算模型,和每组所述系统数据对应的所述第一计算参数和所述第二计算参数,确定当前迭代周期对应的第一权重集合;所述第一权重计算模型为基于最小二乘法最小化所述第一逼近误差方程所得到的计算模型;在所述第一权重集合中确定当前的第二神经网络对应的目标权重,以所述当前的第二神经网络对应的目标权重,对所述当前的第二神经网络的权重进行更新;判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,若当前迭代周期中所述更新后的第二神经网络不符合所述第二收敛条件,则进入下一个迭代周期;若当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件,则结束所述迭代更新过程。上述的方法,可选的,所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,包括:确定当前迭代周期对应的初始权重集合;基于所述第一权重集合与所述当前迭代周期对应的初始权重集合,判断所述第一权重集合是否收敛;若所述第一权重集合已收敛,则确定当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件。上述的方法,可选的,所述基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略,更新当前的第一神经网络的权重,包括:根据预设的第二参数计算模型和更新后的第二神经网络,计算每组所述系统数据对应的第三计算参数和第四计算参数;所述第二参数计算模型为基于第二逼近误差方程中的各个参数项所构建的计算模型,所述第二逼近误差方程为基于神经网络的函数逼近策略和第二贝尔曼方程所确定的误差方程,所述第二贝尔曼方程为所述离策略的强化学习算法中用于优化第二输入信号的贝尔曼方程;依据预设的第二权重计算模型,和每组所述系统数据对应的所述第三参数和所述第四计算参数,确定当前训练周期对应的第二权重集合,所述第二权重计算模型为基于最小二乘法最小化所述第二逼近误差方程所得到的计算模型;在所述第二权重集合中确定当前的第一神经网络对应的目标权重,以所述当前的第一神经网络对应的目标权重,对当前的第一神经网络的权重进行更新。上述的方法,可选的,所述判断更新后的第一神经网络是否符合所述第一收敛条件,包括:确定当前训练周期对应的初始权重集合;基于所述第二权重集合和所述当前训练周期对应的初始权重集合,判断所述第二权重集合是否收敛;若所述第二权重集合已收敛,则确定更新后的第一神经网络符合所述第一收敛条件。上述的方法,可选的,所述基于神经网络的函数逼近策略和所述第一贝尔曼方程确定所述第一逼近误差方程的过程,包括:确定所述第一贝尔曼方程中的值函数对应的神经网络;确定所述第一贝尔曼方程中的策略函数对应的神经网络;确定所述第一贝尔曼方程中的动力学参数对应的神经网络;将所述值函数对应的神经网络、策略函数对应的神经网络和所述动力学参数对应的神经网络,代入所述第一贝尔曼方程,得到所述第一贝尔曼方程对应的逼近误差方程,将所述第一贝尔曼方程对应的逼近误差方程作为所述第一逼近误差方程。一种控制策略本文档来自技高网...

【技术保护点】
1.一种控制策略的确定方法,其特征在于,包括:/n获取预先采集的多组系统数据,每组所述系统数据包括被控系统在输入激励信号的情况下,在预定信号采集时间点上所采集的所述激励信号的当前信号值,和所述被控系统的当前系统状态;/n确定预构建的第一神经网络和第二神经网络;/n确定所述第一神经网络对应的第一权重更新策略,和所述第二神经网络对应的第二权重更新策略,所述第一权重更新策略和所述第二权重更新策略,为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略;/n通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,使得训练后的第一神经网络符合预设的第一收敛条件,且训练后的第二神经网络符合预设的第二收敛条件;/n以所述训练后的第一神经网络和所述训练后的第二神经网络,配置控制器,以使已配置的控制器在所述被控系统运行过程中,根据所述被控系统的实时系统状态,向所述被控系统输入控制信号。/n

【技术特征摘要】
1.一种控制策略的确定方法,其特征在于,包括:
获取预先采集的多组系统数据,每组所述系统数据包括被控系统在输入激励信号的情况下,在预定信号采集时间点上所采集的所述激励信号的当前信号值,和所述被控系统的当前系统状态;
确定预构建的第一神经网络和第二神经网络;
确定所述第一神经网络对应的第一权重更新策略,和所述第二神经网络对应的第二权重更新策略,所述第一权重更新策略和所述第二权重更新策略,为基于离策略的强化学习算法和值函数逼近算法所得到的更新策略;
通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,使得训练后的第一神经网络符合预设的第一收敛条件,且训练后的第二神经网络符合预设的第二收敛条件;
以所述训练后的第一神经网络和所述训练后的第二神经网络,配置控制器,以使已配置的控制器在所述被控系统运行过程中,根据所述被控系统的实时系统状态,向所述被控系统输入控制信号。


2.根据权利要求1所述的方法,其特征在于,所述通过各组所述系统数据、所述第一权重更新策略及所述第二权重更新策略,分别对所述第一神经网络及所述第二神经网络进行训练,包括:
按照预设的训练周期,分别对所述第一神经网络的权重和所述第二神经网络的权重进行更新,在进入当前的训练周期时,基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件;
基于更新后的第二神经网络、各组所述系统数据和所述第一权重更新策略,更新当前的第一神经网络的权重,并判断更新后的第一神经网络是否符合所述第一收敛条件;
若更新后的第一神经网络不符合所述第一收敛条件,则进入下一个训练周期,若更新后的第一神经网络符合所述第一收敛条件,则完成对所述第一神经网络和所述第二神经网络的训练。


3.根据权利要求2所述的方法,其特征在于,所述基于当前的第一神经网络、各组所述系统数据和所述第二权重更新策略,对当前的第二神经网络的权重进行迭代更新,使得迭代更新后的第二神经网络符合所述第二收敛条件,包括:
在进入当前的迭代周期时,根据预设的第一参数计算模型和当前的第一神经网络,计算每组所述系统数据对应的第一计算参数和第二计算参数;所述第一参数计算模型为基于第一逼近误差方程中的各个参数项所构建的计算模型,所述第一逼近误差方程为基于神经网络的函数逼近策略和第一贝尔曼方程所确定的误差方程,所述第一贝尔曼方程为所述离策略的强化学习算法中用于优化第一输入信号的贝尔曼方程;
依据预设的第一权重计算模型,和每组所述系统数据对应的所述第一计算参数和所述第二计算参数,确定当前迭代周期对应的第一权重集合;所述第一权重计算模型为基于最小二乘法最小化所述第一逼近误差方程所得到的计算模型;
在所述第一权重集合中确定当前的第二神经网络对应的目标权重,以所述当前的第二神经网络对应的目标权重,对所述当前的第二神经网络的权重进行更新;
判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,若当前迭代周期中所述更新后的第二神经网络不符合所述第二收敛条件,则进入下一个迭代周期;
若当前迭代周期中所述更新后的第二神经网络符合所述第二收敛条件,则结束所述迭代更新过程。


4.根据权利要求3所述的方法,其特征在于,所述判断当前迭代周期中更新后的第二神经网络是否符合所述第二收敛条件,包括:
确定当前迭代周期对应的初始权重集合;
基于所述第一权重集合与所述当前迭代周期对应的初始权重集合,判断所述第一权重集合是否收敛;
若所述第一权重集合已收敛,则确定当前迭代周...

【专利技术属性】
技术研发人员:秦家虎周承港李曼
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1