基于数据的Q函数自适应动态规划方法技术

技术编号：8958951 阅读：260 留言：0更新日期：2013-07-25 03:14

本发明专利技术提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题。所述方法主要包括：步骤1，初始化稳定的控制策略；步骤2，用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重；步骤3，根据当前控制策略和当前时刻系统状态，生成被控制系统的控制动作并施加到被控制对象上，观测下一时刻的系统状态；步骤4，调整控制器、评价器神经网络的权重；步骤5，判断当前迭代周期是否已经结束，是则进入步骤6，否则回到步骤3；步骤6，判断最近两个迭代周期产生的神经网络权重是否有明显变化，是则用新产生的控制器、评价器神经网络进入步骤2，否则输出最终的控制器神经网络控制器。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能控制
，尤其涉及基于数据的Q函数自适应动态规划方法。
技术介绍
在工业生产、航空航天、汽车工程等领域，被控对象能够在有限的资源下使用最小的资源来完成控制目标，即最优控制。最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优。性能指标函数是与系统的状态和所采用的控制策略有关，它能够反映该控制策略在当前以及以后时刻的控制效果。针对离散系统性能指标函数可以用数学形式可以表示成如下式子:

【技术保护点】
一种通过自适应动态规划优化系统控制策略的方法，其包括以下步骤：?步骤1，初始化任意一个稳定的控制策略作为当前控制策略；?步骤2，使用当前控制策略初始化控制器、评价器神经网络的权重；?步骤3，根据当前控制策略和当前时刻被控系统的状态，生成控制动作并施加到被控系统上，获得下一时刻的系统状态；?步骤4，根据前一时刻系统状态、相应控制动作和下一时刻的系统状态，调整控制器、评价器神经网络的权重，获得调整后的控制器和评价器神经网络权重；?步骤5，判断当前迭代周期是否已经结束，是则进入步骤6，否则将调整后的控制器神经网络权重对应的控制策略作为当前控制策略返回步骤3继续执行；?步骤6，判断最近两个迭代周期所产生的控制器、评价器神经网络权重是否有明显变化，是则将调整后的控制器神经网络对应的控制策略作为当前控制策略进入步骤2继续优化，否则输出当前控制器神经网络对应的控制策略作为最优的控制策略。

【技术特征摘要】
1.一种通过自适应动态规划优化系统控制策略的方法，其包括以下步骤: 步骤1，初始化任意一个稳定的控制策略作为当前控制策略；步骤2，使用当前控制策略初始化控制器、评价器神经网络的权重；步骤3，根据当前控制策略和当前时刻被控系统的状态，生成控制动作并施加到被控系统上，获得下一时刻的系统状态；步骤4，根据前一时刻系统状态、相应控制动作和下一时刻的系统状态，调整控制器、评价器神经网络的权重，获得调整后的控制器和评价器神经网络权重；步骤5，判断当前迭代周期是否已经结束，是则进入步骤6，否则将调整后的控制器神经网络权重对应的控制策略作为当前控制策略返回步骤3继续执行；步骤6，判断最近两个迭代周期所产生的控制器、评价器神经网络权重是否有明显变化，是则将调整后的控制器神经网络对应的控制策略作为当前控制策略进入步骤2继续优化，否则输出当前控制器神经网络对应的控制策略作为最优的控制策略。...

【专利技术属性】
技术研发人员：赵冬斌，朱圆恒，刘德荣，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人