【技术实现步骤摘要】
【技术保护点】
一种基于监督式强化学习的最优控制方法,其特征在于,该方法包括以下步骤:步骤1,首先初始化控制器和评价器的人工神经网络的权值参数,和一组训练数据集;步骤2,选取一组训练数据即系统状态开始进行迭代学习;步骤3,根据当前时刻的系统状态,采用监督式控制器监督控制器的人工神经网络学习一个容许可控的控制策略;步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;步骤5,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态和系统给出的回报;步骤6,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略,否则返回步骤2继续训练。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵冬斌,王滨,刘德荣,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。