基于神经元增益基元组合优化的机器人运动控制方法技术

技术编号:28011263 阅读:35 留言:0更新日期:2021-04-09 22:47
本发明专利技术属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置,旨在现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题。本方法包括获取机器人待运动的目标位置及运动方向,作为输入数据;基于输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。本发明专利技术提高了机器人运动控制的鲁棒性、自适应性。

【技术实现步骤摘要】
基于神经元增益基元组合优化的机器人运动控制方法
本专利技术属于机器人
,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置。
技术介绍
能够快速、鲁棒、自适应地执行灵巧的运动是机器人广泛应用的重要前提。但是,现有的机器人技术在通用性方面依然差强人意。具有刚性结构的机器人系统通常工作在结构化环境中,与人类工作人员保持安全距离,难以真正实现与人的协同合作。而相比而言,人类的运动结构经过长期进化,拥有完备的肌肉骨骼系统以及发达的运动神经系统,使其能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况下,通过激素的调节作用,使神经网络产生丰富的瞬态响应,从而支持生物完成轨迹、速度、力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能力。而这一特性正是当前机器人控制领域的关键瓶颈问题,因此,通过深入研究人类躯体运动结构和神经控制机理,将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来重要启发。基于此,本专利技术提出了一种基于神经元增益基元组合优化的机器人运动控制方法。
技术实现思路
为了解决现有技术中的上述问题,即为了解决现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题,本专利技术第一方面,提出了一种基于神经元增益基元组合优化的机器人运动控制方法,该方法包括:步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;其中,所述循环神经网络动力学模型其构建及训练方法为:步骤A10,初始化循环神经网络的连接矩阵;步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;步骤A30,初始化循环神经网络的神经元集群编码层;步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益和神经元动作电位阈值分别存储增益基元库GL和电位阈值基元库IL中;步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集计算所述点集各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。在一些优选的实施方式中,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或所述负数列的取值为0或其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。在一些优选的实施方式中,所述能量函数为:其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。在一些优选的实施方式中,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为::μC=0.5(GU-GL)其中,表示t时刻神经元频率-电流增益,表示t时刻神经元动作电位阈值,表示正常情况下神经元的增益幅度,是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU,是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。在一些优选的实施方式中,所述受增益调控的循环神经网络动力学模型为:其中,xi(t)表示t时刻的神经元膜电位幅值,表示xi(t)的一阶导数,Wik∈W,i和k为行列号,为受增益调控的神经元发放率函数,为平移量,rmax为神经元的最大发放频率,xk(t)为,γ表示形状因子。在一些优选的实施方式中,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:xi(t)=τ·Wfi(θT)fi(θT)=rmax·exp(K(cos(θT-θi)-1))其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。在一些优选的实施方式中,步骤A70中“更新神经元的动作电位阈值”,其方法为:Irhe(t)=Irhe(t-1)+ΔIrhe(t)其中,表示t-1时刻、t时刻更新后的神经元动作电位阈值,表示奖励函数值,表示t-1时刻的奖励信号值,ξ(t)为一个随机数。本专利技术的第二方面,提出了一种基于神经元增益基元组合优化的机器人运动控制系统,该系统包括:获取模块、识别模块;所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;其中,所述循环神经网络动力学模型其构建及训练方法为:步骤A10,初始化循环神经网络的连接矩阵;步骤A20,基于所述连接矩阵、设定的松弛变量本文档来自技高网...

【技术保护点】
1.一种基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,该方法包括以下步骤:/n步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;/n步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;/n其中,所述循环神经网络动力学模型其构建及训练方法为:/n步骤A10,初始化循环神经网络的连接矩阵;/n步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;/n步骤A30,初始化循环神经网络的神经元集群编码层;/n步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;/n步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;/n步骤A60,获取N

【技术特征摘要】
1.一种基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,该方法包括以下步骤:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益和神经元动作电位阈值分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集计算所述点集各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。


2.根据权利要求1所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或所述负数列的取值为0或



其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。


3.根据权利要求2所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,所述能量函数为:



其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。


4.根据权利要求3所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为:









μC=0.5(GU-GL)



其中,表示t时刻神经元频率-电流增益,表示t时刻神经元动作电位阈值,表示正常情况下神经元的增益幅度,是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU,是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。


5.根据权利要求4所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,所述受增益调控的循环神经网络动力学模型为:






其中,xi(t)表示t时刻的神...

【专利技术属性】
技术研发人员:钟汕林周俊杰乔红吴伟
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1