The decentralized neural optimal control method for reconfigurable robots based on Evaluation and identification structure belongs to the field of robot control algorithm. In order to solve the problem of low precision of decentralized optimal control in existing technology, this method firstly establishes the dynamic model of reconfigurable robots, secondly establishes the cost function and HJB equation, and then solves the HJB equation by learning algorithm based on strategy iteration. The method solves the problem of low decentralized optimal control accuracy in the prior art, provides stability and accuracy for reconfigurable robots, and can also be used. To meet the needs of various tasks.
【技术实现步骤摘要】
基于评判辨识结构的可重构机器人分散神经最优控制方法
本专利技术涉及一种可重构机器人系统的分散神经最优控制方法,属于机器人控制算法领域。
技术介绍
可重构机器人由电源装置、减速设备、执行器、传感器和计算系统组成。这些模块可以被组装成具有标准机械接口的预定参数,以满足各种任务的需求。从这一优势出发,可重构机器人经常被用于复杂而危险的工作环境,如救灾、空间探索、高温/低温作业等。因此,可重构机器人需要适当的控制系统来保证机器人系统的稳定性,同时考虑到控制性能和功耗组合的优化实现。可重构机器人的重要特性是机器人模块可以添加、删除和替换,而不需要调整其他模块的控制参数。换句话说,对于可重构机器人系统,在子系统和本地控制器之间存在着物理上的信息交换限制,对于这些子系统和本地控制器来说,它们拥有集中控制器的能力是不可靠的。对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与内部动力学有很大的不同。分散神经最优控制策略是在非线性系统的动态信息是完全未知的前提下进行研究的,因此这些方法的应用局限于求解机器人系统特定类的最优控制问题,而没有实现最优的动态补偿。事实上,在设计机器人分散最优控制器时,尤其是在可重构机器人系统中,需要充分利用现有的动态模型信息。赵博等人在InternationalJournalofControl,AutomationandSystems上发表的”Model-freeAdaptiveDynamicProgrammingBasedNear-optimalDecentralizedTrackingControlofReconfig ...
【技术保护点】
1.基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。
【技术特征摘要】
1.基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。2.根据权利要求1所述的基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征在于,该方法包括如下步骤:步骤一,建立可重构机器人系统动力学模型如下:上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;定义系统的状态向量控制输入ui=τi;则子系统的状态空间的形式可以表示为:其中,Bi=(Imiγi)-1∈R+,表示动力学模型中已建模的部分,表示耦合力矩交联项,θi(xi)=Bi(-fpi(xi1,xi2)-Y(xi2)Fi-di(xi1))是模型不确定项,包括摩擦模型误差和外界扰动;步骤二,构建代价函数如下:其中,si(ei)定义为且ei=xi1-xid和分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid、分别是第i个关节期望的位置、速度和加速度,为效用函数,和是确定的正常数矩阵;构建哈密顿方程如下:其中,是第i个关节的期望加速度,Ji(0)=0,为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:根据式(15)、(16),基于非线性系统最优控制设计理论,易知满足如下HJB方程:最优控制律定义为如下形式:其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,为基于自适应动态规划的神经最优控制律;将式(17)的HJB方程改写成:接下来,定义ui1为ui1是根据第i个关节模块的局部动态信息来设计的;步骤三,交联项动力学的辨识;交联项hi可以用一个单层神经网络来进行逼近:σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表...
【专利技术属性】
技术研发人员:董博,安天骄,秦一,靳伟宁,周帆,王树祥,刘克平,李元春,
申请(专利权)人:长春工业大学,
类型:发明
国别省市:吉林,22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。