基于评判辨识结构的可重构机器人分散神经最优控制方法技术

技术编号:20796250 阅读:42 留言:0更新日期:2019-04-06 09:53
基于评判辨识结构的可重构机器人分散神经最优控制方法,属于机器人控制算法领域,为了解决现有技术中存在分散最优控制精度低的问题,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性;本发明专利技术解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。

Decentralized Neural Optimal Control Method for Reconfigurable Robots Based on Judgement and Identification Structure

The decentralized neural optimal control method for reconfigurable robots based on Evaluation and identification structure belongs to the field of robot control algorithm. In order to solve the problem of low precision of decentralized optimal control in existing technology, this method firstly establishes the dynamic model of reconfigurable robots, secondly establishes the cost function and HJB equation, and then solves the HJB equation by learning algorithm based on strategy iteration. The method solves the problem of low decentralized optimal control accuracy in the prior art, provides stability and accuracy for reconfigurable robots, and can also be used. To meet the needs of various tasks.

【技术实现步骤摘要】
基于评判辨识结构的可重构机器人分散神经最优控制方法
本专利技术涉及一种可重构机器人系统的分散神经最优控制方法,属于机器人控制算法领域。
技术介绍
可重构机器人由电源装置、减速设备、执行器、传感器和计算系统组成。这些模块可以被组装成具有标准机械接口的预定参数,以满足各种任务的需求。从这一优势出发,可重构机器人经常被用于复杂而危险的工作环境,如救灾、空间探索、高温/低温作业等。因此,可重构机器人需要适当的控制系统来保证机器人系统的稳定性,同时考虑到控制性能和功耗组合的优化实现。可重构机器人的重要特性是机器人模块可以添加、删除和替换,而不需要调整其他模块的控制参数。换句话说,对于可重构机器人系统,在子系统和本地控制器之间存在着物理上的信息交换限制,对于这些子系统和本地控制器来说,它们拥有集中控制器的能力是不可靠的。对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与内部动力学有很大的不同。分散神经最优控制策略是在非线性系统的动态信息是完全未知的前提下进行研究的,因此这些方法的应用局限于求解机器人系统特定类的最优控制问题,而没有实现最优的动态补偿。事实上,在设计机器人分散最优控制器时,尤其是在可重构机器人系统中,需要充分利用现有的动态模型信息。赵博等人在InternationalJournalofControl,AutomationandSystems上发表的”Model-freeAdaptiveDynamicProgrammingBasedNear-optimalDecentralizedTrackingControlofReconfigurableManipulators”,该文中分散最优控制没有考虑复杂的互联非线性系统,特别是对于可重构机器人系统,交联项的性质和大小与内部动力学完全不同,所以该方法存在控制精度低的问题。
技术实现思路
本专利技术为了解决现有技术中存在分散最优控制精度低的问题,提出了一种基于评判辨识结构的可重构机器人分散神经最优控制方法。本专利技术解决技术问题的方案是:基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。基于评判辨识结构的可重构机器人分散神经最优控制方法,包括如下步骤:步骤一,建立可重构机器人系统动力学模型如下:上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;定义系统的状态向量控制输入ui=τi;则子系统的状态空间的形式可以表示为:其中,表示动力学模型中已建模的部分,表示耦合力矩交联项,是模型不确定项,包括摩擦模型误差和外界扰动;步骤二,构建代价函数如下:其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵;构建哈密顿方程如下:其中,是第i个关节的期望加速度,为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:根据式(15)、(16),基于非线性系统最优控制设计理论,易知满足如下HJB方程:最优控制律定义为如下形式:其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,为基于自适应动态规划的神经最优控制律;将式(17)的HJB方程改写成:接下来,定义ui1为ui1是根据第i个关节模块的局部动态信息来设计的;步骤三,交联项动力学的辨识;交联项hi可以用一个单层神经网络来进行逼近:σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差;在(23)的基础上,考虑如下有界控制输入uih非线性动力学系统:用神经网络辨识逼近(24),得到:其中,为辨识系统状态xih,hi的逼近为为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:rih=kiheih+vih(27)其中,是辨识误差,vih由如下广义解给出:其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:其中,在此基础上,定义辨识误差函数:根据式(28)、(29)对时间t的导数,有如下定义:神经网络权重更新设计如下:其中,proj表示光滑投影运算,Γih表示正常数增益矩阵;结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:权值由(31)更新;步骤四,通过神经网络来近似代价函数Ji(si),定义如下:其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:其中:和分别代表激活函数的梯度和逼近误差;结合(21),(37)由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:以同样的方式近似哈密顿方程,可得:定义误差方程为权值估计误差为结合式(40)与式(42),可以得到一个用表示eci的方程:训练和调整评价网络的权值信息,采用目标函数它可以被训练来取到最小值,且神经网络的权值可以通过下式进行更新:其中,αci>0表示评价神经网络的学习速率;推导出神经网络权值的动态误差,引入下式:通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:结合(18)和(36),理想基于自适应动态规划的神经最优控制律为:在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制律如下所示:结合式(22),(35)与(48),可得到基于评判辨识结构的可重构机器人分散神经最优控制律为:本专利技术的有益效果如下:在位置跟踪方面,本专利技术改善了系统的跟踪性能,并且降低了评判神经网络对未知非线性项的计算负担,关节位置的稳态误差减小。在控制力矩方面,本专利技术的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。在训练神经网络方面,本专利技术通过在线策略迭代的方法可以更快的训练神经网络。因此,本专利技术解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。附图说明图1为本专利技术基于评判辨识结构的可重构机器人分散神经最优控制原理图。图2为本专利技术基于评判辨识结构的可重构机器人分散神经最优控制方法流程图。图3为本专利技术仿真验证中的可重构机器人构型A关节1(图3-(a))和关节2(图3-(b))的提出方法的关节位置跟踪曲线。图4为本专利技术仿真验证中的可重构本文档来自技高网
...

【技术保护点】
1.基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。

【技术特征摘要】
1.基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。2.根据权利要求1所述的基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征在于,该方法包括如下步骤:步骤一,建立可重构机器人系统动力学模型如下:上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;定义系统的状态向量控制输入ui=τi;则子系统的状态空间的形式可以表示为:其中,Bi=(Imiγi)-1∈R+,表示动力学模型中已建模的部分,表示耦合力矩交联项,θi(xi)=Bi(-fpi(xi1,xi2)-Y(xi2)Fi-di(xi1))是模型不确定项,包括摩擦模型误差和外界扰动;步骤二,构建代价函数如下:其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵;构建哈密顿方程如下:其中,是第i个关节的期望加速度,Ji(0)=0,为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:根据式(15)、(16),基于非线性系统最优控制设计理论,易知满足如下HJB方程:最优控制律定义为如下形式:其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,为基于自适应动态规划的神经最优控制律;将式(17)的HJB方程改写成:接下来,定义ui1为ui1是根据第i个关节模块的局部动态信息来设计的;步骤三,交联项动力学的辨识;交联项hi可以用一个单层神经网络来进行逼近:σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表...

【专利技术属性】
技术研发人员:董博安天骄秦一靳伟宁周帆王树祥刘克平李元春
申请(专利权)人:长春工业大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1