基于监督式强化学习的最优控制方法技术

技术编号：9197659 阅读：215 留言：0更新日期：2013-09-26 01:57

本发明专利技术提出一种基于监督式强化学习的最优控制方法，包括步骤：步骤1，初始化控制器和评价器的人工神经网络的权值等参数，及一组训练数据集；步骤2，选择一组系统状态开始迭代；步骤3，监督式控制器产生初始稳定的控制策略，控制器通过调整自身权值逼近该控制策略；步骤4，控制器生成相应的控制动作，并附加一定的随机噪声作为探索；步骤5，将带有噪声的控制动作施加到被控制的系统上，观测下一时刻系统的状态和回报；步骤6，调整控制器和评价器的人工神经网络的权重；步骤7，判断当前状态是否满足终止条件，是则进入步骤8，否则回到步骤3；步骤8，判断初始的系统状态数据是否已经全部用于训练，是则输出最终的控制器，否则回到步骤2。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种基于监督式强化学习的最优控制方法，其特征在于，该方法包括以下步骤：步骤1，首先初始化控制器和评价器的人工神经网络的权值参数，和一组训练数据集；步骤2，选取一组训练数据即系统状态开始进行迭代学习；步骤3，根据当前时刻的系统状态，采用监督式控制器监督控制器的人工神经网络学习一个容许可控的控制策略；步骤4，控制器的人工神经网络输出学习到的控制策略，并在此基础上附加一定的随机噪声作为探索，以期获得更好的控制策略；步骤5，根据当前控制策略和当前时刻被控系统的状态，生成控制动作并施加到被控系统上，获得下一时刻的系统状态和系统给出的回报；步骤6，根据前一时刻系统状态、相应控制动作和下一时刻的系统状态，调整控制器、评价器的人工神经网络的权重，获得调整后的控制器和评价器的人工神经网络权重；步骤7，判断当前状态是否满足定义的终止条件，是则进入步骤8，否则返回步骤3继续执行；步骤8，判断是否将选取的训练数据集中的数据全部用于训练，是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略，否则返回步骤2继续训练。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵冬斌，王滨，刘德荣，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人