一种基于神经网络和强化学习的倒立摆控制方法技术

技术编号:13234623 阅读:49 留言:0更新日期:2016-05-14 22:05
本发明专利技术一种基于神经网络和强化学习的倒立摆控制方法,涉及一种神经网络和强化学习算法,可以进行自学习,完成对倒立摆的控制装置,属于人工智能及控制技术领域,其特征在于:步骤1:获取倒立摆系统模型信息;步骤2:获取倒立摆的状态信息,初始化神经网络;步骤3:使用训练样本SAM,完成对ELM的训练;步骤4:由强化学习控制器对倒立摆进行控制;步骤5:更新训练样本,和BP神经网络;步骤6:查看控制结果查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环。否则结束算法。本方法能够在连续状态空间中解决易出现的“维数灾难”问题,有效解决具有连续状态的非线性系统的控制问题,具有更快的更新速度。

【技术实现步骤摘要】

本专利技术,涉及一种神经网络和强 化学习算法,可以进行自学习,完成对倒立摆的控制装置,属于人工智能及控制
特别涉及将强化学习算法与ELM-BP相结合,利用神经网络的泛化性能,采用actor-critic 架构,设计出一种新的能够有效控制具有连续状态空间的倒立摆系统的方法。
技术介绍
倒立摆控制系统是一个不稳定、复杂的、非线性系统,是检验控制理论和方法的理 想模型和进行控制理论教学及开展各种控制实验的理想实验平台。对倒立摆系统的研究能 有效的反映控制中的许多典型问题如非线性问题、鲁棒性问题、镇定问题、随动问题以及跟 踪问题等。对倒立摆的控制通常用来检验新的控制方法是否有较强的处理非线性和不稳定 性问题的能力。同时,倒立摆的控制方法在军工、航天、机器人和一般工业过程领域中都有 着广泛的用途。目前,国内外对于倒立摆系统的研究主要是采用倒立摆系统的数学模型,使 用更为先进的控制算法对倒立摆进行控制,检验算法的有效性,对算法进行理论验证,并作 为实验教学平台进行使用。 多年来,人们对倒立摆的研究越来越感兴趣。这其中的原因不仅在于倒立摆系统 在人工智能领域的广泛应用,而且在于新的控制方法不断出现,人们试图通过倒立摆这样 一个控制对象,检验新的控制方法是否具有较强的处理多变量、非线性和绝对不稳定的能 力。因此,倒立摆系统作为控制理论研究中的一种较为理想的实验手段通常用来验证控制 策略的效果,它适合用多种理论和方法进行控制,并起到检验算法的作用。但是在目前的研究领域所提出的控制方法中,对倒立摆系统的控制,均需要人为 先收集获取倒立摆系统的相关输出或参数进行学习,而在实际应用中,倒立摆的某些参数 是需要经过大量实验训练才能确定的,没有办法实现在线更新,所以,给倒立摆系统的控制 带来了很大的困难。
技术实现思路
为了解决上述问题,本专利技术,不 仅能够对倒立摆系统实现快速的稳定性控制,而且运用人工智能领域的强化学习算法,能 在无标记、无导师的情况下,建立和更新一个神经网络,以维持倒立摆的平衡。同时,本专利技术 具有更为广泛的应用性。 本专利技术,主要包括以下步骤: 步骤1:获取倒立摆系统模型信息 步骤2:获取倒立摆的状态信息,初始化神经网络 初始化强化学习各参数、ELM神经网络隐藏层权值和偏置以及BP连结权进行随机 赋值,检测系统所处状态St。 步骤3:使用训练样本SAM,完成对ELM的训练。根据当前所处状态st,通过动作网络 (9)计算当前状态下的控制量U(t),得出当前状态下的动作at,并通过评价网络ELM计算对 应的Q值,然后根据智能体获取的环境信息作为输入信号,输入到倒立摆系统中。 步骤4:由强化学习控制器对倒立摆进行控制根据当前状态St和要执行的动作&,通过评价网络(2)ELM计算强化学习评价函数Q ⑴⑶的Q值,执行动作&于倒立摆(7)系统,获得倒立摆新状态st+1,与立即回报rt+1;然后 根据式Qt+i (s,a) = (1 -a) Qt (s,a) +a 更新Q值; 步骤5:更新训练样本,和BP神经网络将新样本(St,at,Qt)加入训练样本集SAM,同时滚动时间窗(27)向前移动,抛弃最 旧样本;根据误差反向传播公式《&+1)=?(〇+4?(〇调节动作网络(9沖?神经网络。步骤6:查看控制结果 查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环。否则结束算法。 在实际控制中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机 的初始状态开始,直到控制失败(摆倒下或是小车超过导轨的长度),控制器则重新进行学 习,如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功,或者试探次数超 过1000次依然无法保持平衡则判定为失败。 本专利技术具有如下优点及效果: (1)本方法能够在连续状态空间中解决易出现的"维数灾难"问题,可以有效解决 具有连续状态的非线性系统的控制问题。 (2)基于滚动时间窗机制能够实现在线学习,具有更快的更新速度。 (3)采用自适应启发式算法,能够降低倒立摆控制问题的处理难度,加速控制量的 产生,提高算法的效率。【附图说明】附图1为本专利技术中的强化学习控 制器结构示意图。附图2为本专利技术中的BP网络结构 示意图。附图3为本专利技术中的ELM网络结 构示意图。附图4为本专利技术中的滚动时间窗 原理示意图。附图5为本专利技术中的倒立摆结构 示意图。附图6为本专利技术中的偏离角度 图。附图7为本专利技术中的偏离位移 图。附图8为本专利技术中的系统对倒立 摆的控制曲线图。 附图9为本专利技术中的系统演化过 程图。 其中各部分为:状态变量(1),评价网络(2),评价函数(3),折扣因子(4),累计折扣 回报(5),外部再励信号r(t) (6),倒立摆(7),控制量(8),动作网络(9),BP网络输入向量 (10),BP网络输入层(11),BP网络输入层和隐含层之间的权值矩阵(12),BP网络隐含层 (13),BP网络隐含层与输出层之间的权值矩阵(14),BP网络输出向量(15),BP网络输出层 (16),ELM影响因子(17),ELM输出层(18),ELM输出向量(19),ELM输出权值(20),ELM隐节点 的激活函数(21),ELM偏置值(22),ELM隐含层(23),ELM输入层(24),ELM输入向量(25),ELM 输入权值向量(26),宽度为L的时间窗(27),控制力(28),小车(29),铰链(30),摆杆偏离垂 直方向的角度(31),摆杆的角速度(32),摆杆(33),水平速度(34),水平位移(35),有限导轨 (36)〇【具体实施方式】本专利技术的实施过程为:本专利技术的整体控制框架为强化学习控制器,假设在每个时间步t=l,2,…,Agent 观察马尔科夫决策过程的状态为st,选择动作a,收到即时回报rt,并使系统转移到下一个状 态St+l,转移概率为?(8*#,8* +1)。所以,系统前11步的演化过程如图9所示。强化学习系统的目标是学习到一个策略π,使得在未来时间步内获得的累计折扣(0< γ <1为折扣因子),该策略为最优策略,但是现实许多情况中,环境 的状态转移概率函数Ρ和回报函数R未知。Agent要学习到最优策略,只有回报f可用,这样 Agent不用考虑环境模型,可以直接优化一个可迭代计算的Q值函数。Sarsa算法是强化学习 领域最重要的一类算法,其实质是离策略TD控制算法的延伸,由Rummery和当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种基于神经网络和强化学习的倒立摆控制方法,主要包括:步骤1:获取倒立摆系统模型信息;步骤2:获取倒立摆的状态信息,初始化神经网络;初始化强化学习各参数、ELM神经网络隐藏层权值和偏置以及BP连结权进行随机赋值,检测系统所处状态st;步骤3:使用训练样本SAM,完成对ELM的训练,根据当前所处状态st,通过动作网络(9)计算当前状态下的控制量U(t),得出当前状态下的动作at,并通过评价网络ELM计算对应的Q值,然后根据智能体获取的环境信息作为输入信号,输入到倒立摆系统中;步骤4:由强化学习控制器对倒立摆进行控制根据当前状态st和要执行的动作at,通过评价网络(2)ELM计算强化学习评价函数Q(t)(3)的Q值,执行动作at于倒立摆(7)系统,获得倒立摆新状态st+1,与立即回报rt+1;然后根据式Qt+1(s,a)=(1‑α)Qt(s,a)+α[rt+γQ(st+1,at+1)]更新Q值;步骤5:更新训练样本,和BP神经网络将新样本(st,at,Qt)加入训练样本集SAM,同时滚动时间窗(27)向前移动,抛弃最旧样本;根据误差反向传播公式w(t+1)=w(t)+△w(t)调节动作网络(9)BP神经网络;步骤6:查看控制结果查看是否满足学习终止条件,若不满足,则返回到步骤2继续循环,否则结束算法;在实际控制中,倒立摆的状态初始化为平衡位置附近的随机值,系统从一个随机的初始状态开始,直到控制失败(摆倒下或是小车超过导轨的长度),控制器则重新进行学习,如果系统能够在一次试探过程中保持6000步的平衡则判定学习成功,或者试探次数超过1000次依然无法保持平衡则判定为失败。...

【技术特征摘要】

【专利技术属性】
技术研发人员:丁世飞孟令恒王婷婷许新征
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1