一种基于神经网络和强化学习的倒立摆控制方法技术

技术编号：13234623 阅读：49 留言：0更新日期：2016-05-14 22:05

本发明专利技术一种基于神经网络和强化学习的倒立摆控制方法，涉及一种神经网络和强化学习算法，可以进行自学习，完成对倒立摆的控制装置，属于人工智能及控制技术领域，其特征在于：步骤1:获取倒立摆系统模型信息；步骤2：获取倒立摆的状态信息，初始化神经网络；步骤3：使用训练样本SAM，完成对ELM的训练；步骤4：由强化学习控制器对倒立摆进行控制；步骤5：更新训练样本，和BP神经网络；步骤6：查看控制结果查看是否满足学习终止条件，若不满足，则返回到步骤2继续循环。否则结束算法。本方法能够在连续状态空间中解决易出现的“维数灾难”问题，有效解决具有连续状态的非线性系统的控制问题，具有更快的更新速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术，涉及一种神经网络和强化学习算法，可以进行自学习，完成对倒立摆的控制装置，属于人工智能及控制
特别涉及将强化学习算法与ELM-BP相结合，利用神经网络的泛化性能，采用actor-critic 架构，设计出一种新的能够有效控制具有连续状态空间的倒立摆系统的方法。
技术介绍
倒立摆控制系统是一个不稳定、复杂的、非线性系统，是检验控制理论和方法的理想模型和进行控制理论教学及开展各种控制实验的理想实验平台。对倒立摆系统的研究能有效的反映控制中的许多典型问题如非线性问题、鲁棒性问题、镇定问题、随动问题以及跟踪问题等。对倒立摆的控制通常用来检验新的控制方法是否有较强的处理非线性和不稳定性问题的能力。同时，倒立摆的控制方法在军工、航天、机器人和一般工业过程领域中都有着广泛的用途。目前，国内外对于倒立摆系统的研究主要是采用倒立摆系统的数学模型，使用更为先进的控制算法对倒立摆进行控制，检验算法的有效性，对算法进行理论验证，并作为实验教学平台进行使用。多年来，人们对倒立摆的研究越来越感兴趣。这其中的原因不仅在于倒立摆系统在人工智能领域的广泛应用，而且在于新的控制方法不断出现，人们试图通过倒立摆这样一个控制对象，检验新的控制方法是否具有较强的处理多变量、非线性和绝对不稳定的能力。因此，倒立摆系统作为控制理论研究中的一种较为理想的实验手段通常用来验证控制策略的效果，它适合用多种理论和方法进行控制，并起到检验算法的作用。但是在目前的研究领域所提出的控制方法中，对倒立摆系统的控制，均需要人为先收集获取倒立摆系统的相关输出或...

【技术保护点】
一种基于神经网络和强化学习的倒立摆控制方法，主要包括：步骤1:获取倒立摆系统模型信息；步骤2：获取倒立摆的状态信息，初始化神经网络；初始化强化学习各参数、ELM神经网络隐藏层权值和偏置以及BP连结权进行随机赋值，检测系统所处状态st；步骤3：使用训练样本SAM，完成对ELM的训练，根据当前所处状态st，通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作at，并通过评价网络ELM计算对应的Q值，然后根据智能体获取的环境信息作为输入信号，输入到倒立摆系统中；步骤4：由强化学习控制器对倒立摆进行控制根据当前状态st和要执行的动作at，通过评价网络(2)ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作at于倒立摆(7)系统,获得倒立摆新状态st+1，与立即回报rt+1；然后根据式Qt+1(s,a)＝(1‑α)Qt(s,a)+α[rt+γQ(st+1,at+1)]更新Q值；步骤5：更新训练样本，和BP神经网络将新样本(st,at,Qt)加入训练样本集SAM，同时滚动时间窗(27)向前移动，抛弃最旧样本；根据误差反向传播公式w(t+1)＝w(t)+△w(t)调节动作网络...

【技术特征摘要】

【专利技术属性】
技术研发人员：丁世飞，孟令恒，王婷婷，许新征，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人