当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于RBF神经网络的机械臂控制方法技术

技术编号:20145853 阅读:38 留言:0更新日期:2019-01-19 00:01
本发明专利技术公开了一种基于RBF神经网络的机械臂控制方法,其方法为:步骤一、提供一种机械臂的认知学习模型机理;步骤二、提出一种基于小脑‑基底神经节的行为认知模型和混合学习算法;步骤三、采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型;步骤四、在Matlab中,建立机械臂仿真实验模型;步骤五、验证基于RBF神经网络的机械臂控制方法。有益效果:不仅适应于机械臂,还可应用在其他机械领域。可在其他控制领域应用。更适用于应用,可以大大减少程序员的工作量。具有自主学习能力的机械臂在未来更具有竞争力。

【技术实现步骤摘要】
一种基于RBF神经网络的机械臂控制方法
本专利技术涉及一种机械臂控制方法,特别涉及一种基于RBF神经网络的机械臂控制方法。
技术介绍
目前,机器人赖以发展的基础是智能,在机器人控制系统中,最关键的是学习机制和能力。模拟智能体的学习机制,使机器人可以像生物体一样自动地通过不断地训练学习获取新知识和技能,实现自我完善,是机器人控制领域的热点问题。在实际工程中,机械臂的有效载荷会发生变化,运动期间诸多参数无法实现精确预知,而RBF网络的自适应控制方法具有不需要未知参数的先验知识的优点,比如不需要知道载荷的质量、机械手终端的位置和终端作用物体上的力,因此不用离线训练神经网络。RBF网络也能辨识机器人的模型误差,可以保证闭环的稳定性,也具有高性能的跟踪效果,因此RBF网络对复杂系统的控制能力在机械臂上有很高的实用价值。
技术实现思路
本专利技术的目的是在于提供一种机械臂的认知学习模型,提出一种基于径向基函数网络的小脑-基底神经节操作条件学习算法,使机械臂实现自主学习,从而能够更好地控制机械臂。本专利技术提供的基于RBF神经网络的机械臂控制方法,其方法如下所述:步骤一、根据人脑认知系统各模块的工作原理和操作条件反射的机理,提供一种机械臂的认知学习模型机理;步骤二、提出一种基于小脑-基底神经节的行为认知模型和混合学习算法;步骤三、基于径向基函数网络的小脑-基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型;步骤四、采用基于径向基函数网络的小脑-基底神经节操作条件认知学习模型,控制机械臂,在Matlab中,建立机械臂仿真实验模型;步骤五、在Matlab中,通过改变参数和变量进行可行性的测试,验证基于RBF神经网络的机械臂控制方法。本专利技术的有益效果:(1)本专利技术提出一种以小脑-基底神经节操作条件反射为主要学习机制的认知学习模型,不仅适应于机械臂,还可应用在其他机械领域。(2)本专利技术基于小脑-基底神经节的行为认知数学模型进行推导和优化,可在其他控制领域应用。(3)本专利技术基于径向基函数网络的小脑-基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立的机械臂自主学习的数学模型更加智能,更适用于应用,可以大大减少程序员的工作量。(4)本专利技术与现有机械臂控制方法相比更具有前瞻性,具有自主学习能力的机械臂在未来更具有竞争力。附图说明图1是以小脑-基底神经节操作条件反射为主要学习机制的模型结构示意图。图2是径向基函数神经元模型示意图。图3是径向基函数网络结构模型示意图。图4是K-均值聚类算法的可视流程图。图5是认知学习算法流程图。图6是RBF网络对训练样本点拟合的程序执行结果示意图。图7是训练时间及参数示意图。图8是训练误差性能图。图9是spread为0.5时的输出图像示意图。图10是spread为0.5时的误差性能图。图11是spread为5时的输出图像示意图。图12是spread为5时的误差性能图。具体实施方式请参阅图1至图12所示:本专利技术提供的基于RBF神经网络的机械臂控制方法,其方法如下所述:步骤一、根据人脑认知系统各模块的工作原理和操作条件反射的机理,提供一种机械臂的认知学习模型机理。根据人脑各部分的工作机制,提出一种以小脑-基底神经节操作条件反射为主要学习机制的认知学习模型,使智能体系统通过行为网络,评价网络和监督器的作用,进行不断学习。如图1所示,行为网络由小脑模块和基底神经节模块来共同实现,是向外界探索的行为,通过概率式行为选择来实现。小脑模块司职于监督式学习,监督器为给定的信号,其给出的监督行为和概率式行为经过协调因子的加权作用成的复合行为与外界环境产生交互。当取得正向的学习效果,即给出奖励信号;当取得负向的学习效果,即给出处罚信号。基底神经节模块接收到奖惩信号后,输出结果至行为网络,进行下一轮学习。经过多次迭代和重复学习,行为网络不断地在线进行调整,智能系统能够采集到大量的行为状态和训练数据信息,这些探索信息也可成为监督器的学习数据库。通过操作条件训练,该行为网络能够逐渐找到最适合自身的行为。步骤二、提出一种基于小脑-基底神经节的行为认知模型和混合学习算法。模型的混合学习算法的核心是:探索行为ae,监督行为as,两者进行加权求和得到复合行为af,即:af←ωae+(1-ω)as(1)1)、概率式行为选择使用行为策略πA(s),它是状态到行为的映射,用一个参数为θ的RBF网络进行逼近,类似热力学系统,智能体系统状态迁移的随机性表现出一定的统计规律,令它的探索行为选择服从概率分布,即Blotzmann-Gibbs分布:其中,T为热力学温度,KB为玻尔兹曼常数,为玻尔兹曼因子,Z为分配函数;将公式推演,探索行为ae替代状态s,ε(s)=ε(ae)=(ae-aA)2,T表示行为探索程度,即温度越高,探索程度越大,对于每一个确定的T,系统都有其对应的平衡点;2)、用评价值函数V(s)评价行为的正负效果,用RBF网络进行逼近,函数为:V(s)=E{rt+1+γV(st+1)}(3)用奖惩信息rt+1和下一次迭代产生的评价值V(st+1)估计二次评价信号δ:δ=rt+1+γV(st+1)-V(st)(4)其中,0<γ<1为评价奖惩因子;3)、模型中给监督器一个先验知识集,作为行为网络的期望映射,行为策略πA(s)中参数θ的更新由小脑模块和基底神经节模块共同实现,即:θ←θ+ωΔθBG+(1-ω)ΔθCB(5)用于权值调整的误差指标为:采用梯度下降法,网络权值的学习算法为:其中,η∈[0,1]为学习速率,δ为二次评价信号;4)、协调因子ω表示小脑的监督学习在行为网络的认知过程中占的比重,在学习控制过程的初始阶段,概率行为误差较大,行为网络采集到的状态信息较少且不准确,监督器的监督学习占有较大比重,但随着迭代次数的增多,后阶段小脑和基底神经节在其中的起的作用发生了变化,小脑模块的监督器在学习过程中的作用不断减少,强化机制起了主导,将协调因子用指数增加形式表示:步骤三、基于径向基函数网络的小脑-基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型。自主学习的数学模型利用RBF神经网络来实现。RBF神经网络具有三层结构:输入层、隐含层、输出层,具有相同的“感觉-联想-反应”的体系结构。图2为径向基函数神经元模型。输入层对应着感觉神经元的节点,隐含层对应着联想神经元的节点,输出层对应着反应神经元的节点。输入层只起到传递信号的作用,输入层将信号传递给隐含层后,用RBF作为隐单元的“基”构成隐含层对其进行处理转换,它们两层之间的连接权值为1。隐含层采用的是非线性优化策略,而输出层采用的是线性优化策略。图3是径向基函数网络结构模型。RBF神经网络学习算法需要求解3个参数:基函数的中心、方差以及隐含层到输出层的权值;1)、径向基函数的学习中心ti(i=1,2,…,I)采用K-均值聚类算法,假设聚类中心有I个(I的值由先验知识决定),设ti(n)(i=1,2,…,I),是第n次迭代时基函数的中心,K-均值聚类算法的具体步骤如下:第一步:对聚类中心执行初始化,即根据经验从训练样本中集中随机选取I个不同的样本作为初始中心ti(0)(i=1,2,…本文档来自技高网...

【技术保护点】
1.一种基于RBF神经网络的机械臂控制方法,其特征在于:其方法如下所述:步骤一、根据人脑认知系统各模块的工作原理和操作条件反射的机理,提供一种机械臂的认知学习模型机理;步骤二、提出一种基于小脑‑基底神经节的行为认知模型和混合学习算法;步骤三、基于径向基函数网络的小脑‑基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型;步骤四、采用基于径向基函数网络的小脑‑基底神经节操作条件认知学习模型,控制机械臂,在Matlab中,建立机械臂仿真实验模型;步骤五、在Matlab中,通过改变参数和变量进行可行性的测试,验证基于RBF神经网络的机械臂控制方法。

【技术特征摘要】
1.一种基于RBF神经网络的机械臂控制方法,其特征在于:其方法如下所述:步骤一、根据人脑认知系统各模块的工作原理和操作条件反射的机理,提供一种机械臂的认知学习模型机理;步骤二、提出一种基于小脑-基底神经节的行为认知模型和混合学习算法;步骤三、基于径向基函数网络的小脑-基底神经节操作条件学习算法设计,采用人工神经网络和强化学习方法建立一个能使机械臂自主学习的数学模型;步骤四、采用基于径向基函数网络的小脑-基底神经节操作条件认知学习模型,控制机械臂,在Matlab中,建立机械臂仿真实验模型;步骤五、在Matlab中,通过改变参数和变量进行可行性的测试,验证基于RBF神经网络的机械臂控制方法。2.根据权利要求1所述的一种基于RBF神经网络的机械臂控制方法,其特征在于:所述的步骤二中混合学习算法的核心是:探索行为ae,监督行为as,两者进行加权求和得到复合行为af,即:af←ωae+(1-ω)as(1)1)、概率式行为选择使用行为策略πA(s),它是状态到行为的映射,用一个参数为θ的RBF网络进行逼近,类似热力学系统,智能体系统状态迁移的随机性表现出一定的统计规律,令它的探索行为选择服从概率分布,即Blotzmann-Gibbs分布:其中,T为热力学温度,KB为玻尔兹曼常数,为玻尔兹曼因子,Z为分配函数;将公式推演,探索行为ae替代状态s,ε(s)=ε(ae)=(ae-aA)2,T表示行为探索程度,即温度越高,探索程度越大,对于每一个确定的T,系统都有其对应的平衡点;2)、用评价值函数V(s)评价行为的正负效果,用RBF网络进行逼近,函数为:V(s)=E{rt+1+γV(st+1)}(3)用奖惩信息rt+1和下一次迭代产生的评价值V(st+1)估计二次评价信号δ:δ=rt+1+γV(st+1)-V(st)(4)其中,0<γ<1为评价奖惩因子;3)、模型中给监督器一个先验知识集,作为行为网络的期望映射,行为策略πA(s)中参数θ的更新由小脑模块和基底神经节模块共同实现,即:θ←θ+ωΔθBG+(1-ω)ΔθCB(5)用于权值调整的误差指标为:采用梯度下降法,网络权值的学习算法为:其中,η∈[0,1]为学习速率,δ为二次评价信号;4)、协调因子ω表示小脑的监督学习在行为网络的认知过程中占的比重,在学习控制过程的初始阶段,概率行为误差较大,行为网络采集到的状态信息较少且不准确,监督器的监督学习占有较大比重,但随着迭代次数的增多,后阶段小脑和基底神经节在其中的起的作用发生了变化,小脑模块的监督器在学习过程中的作用不断减少,强化机制起了主导,将协调因子用指数增加形式表示:3.根据权利要求1所述的一种基于RBF神经网络的机械臂控制方法,其特征在于:所述的步骤三中自主学习的数学模型利用RBF神经网络来实现,RBF神经网络具有三层结构:输入层、隐含层、输出层,具有相同的“感...

【专利技术属性】
技术研发人员:曲兴田田农王鑫杜雨欣张昆李金来刘博文王学旭
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1