基于强化学习的外骨骼机器人动力辅助控制方法技术

技术编号:23588803 阅读:47 留言:0更新日期:2020-03-27 23:47
本发明专利技术属于工业生产及外骨骼机器人动力辅助领域,具体来说是在考虑外骨骼机器人搬运阶段、人体疲劳以及工件重量随机情况下,“人‑外骨骼‑生产线”系统下提出了一种基于强化学习的外骨骼机器人动力辅助控制方法。首先将外骨骼机器人搬运阶段类型Z、人体疲劳等级P以及工件的重量M作为参考外骨骼机器人动力辅助的状态变量,根据“人‑外骨骼‑生产线”系统特征建立强化学习模型;并依据强化学习模型需要建立各个状态信息的数学模型;再采用基于模拟退火的Q学习算法对所建强化学习模型进行策略求解,所得优化控制策略用以指导“人‑外骨骼‑生产线”系统在实际工作过程中选取合适的助力方案,实现系统生产率的提高。

Dynamic assistant control method of exoskeleton robot based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的外骨骼机器人动力辅助控制方法
本专利技术属于工业生产及外骨骼机器人动力辅助领域,具体来说是在考虑外骨骼机器人搬运阶段、人体疲劳以及工件重量随机情况下,“人-外骨骼-生产线”系统下提出了一种基于强化学习的外骨骼机器人动力辅助控制方法。
技术介绍
我国正在迎来以智能制造为特征的第四次工业革命,以机器人和柔性生产线为代表的智能装备将呈现爆发式增长。但在一些特殊生产环境中,生产线工人在一定时期内不能完全被机器取代。引入机器人辅助生产,减轻工人劳动强度,提高生产效率,是智能制造时代的重要课题。其中,助力外骨骼机器人是一种新型的可穿戴式智能设备,在工业领域的应用前景广泛。通过动力辅助,外骨骼机器人能够协助生产线工人完成相应工作任务,增强工人的运动能力并减轻任务对工人的负荷。在实际应用中,随着适应不同场景以及不断提出的具体要求,传统上肢外骨骼机器人的人机共融智能化水平有待进一步提高。针对柔性生产线需要,提高外骨骼机器人动力辅助与生产线工人的智能共融水平,优化它们与生产线工人的协同作业性能,是一系列急需解决的关键问题。因此,针对柔性生产线需要研究外骨骼机器人动力辅助的控制策略,具有重要的现实意义。
技术实现思路
为了进一步提高工业领域外骨骼机器人与生产线工人的智能共融水平。本专利技术,针对柔性生产线环境下的外骨骼机器人动力辅助控制进行了以下专利技术工作:在考虑电能消耗的情况下,将外骨骼机器人搬运阶段、生产线工人实时的疲劳程度以及工件种类引入到外骨骼机器人动力辅助的控制中,建立“人-外骨骼-生产线”物理系统,再根据该系统特点,将其建立成强化学习模型。其中,疲劳状态信息通过实验数据拟合出了搬运各阶段工人上肢肌肉疲劳恢复数学模型;接着引入基于模拟退火的Q学习算法,根据无穷时段单位时间单位期望平均代价最小的目标进行仿真求解,最终得出系统性能最优的动力辅助策略,进一步提高人机共融水平与协调作业性能。为实现上述目的,本专利技术采用如下技术方案:本专利技术建立了“人-外骨骼-生产线”系统的物理模型,将工作过程分为搬运过程与返回过程。其中,工人在搬运站点搬起工件至指定存储库,即搬运过程;将工件放置存储库后,工人再次回到搬运站点,等待工件到达并进行下一次的搬运,即返回过程。其中,搬运阶段根据该系统简单定义为搬起阶段、平移阶段、卸载阶段和预备阶段。基于强化学习的外骨骼机器人动力辅助控制方法,包括如下步骤,步骤1,获取外骨骼机器人动力辅助的状态变量外骨骼机器人搬运阶段类型Z、人体疲劳等级P以及工件的重量M;步骤2,建立“人-外骨骼-生产线”系统的强化学习模型;步骤3,根据强化学习模型需要各个状态的肌体疲劳数学模型;步骤4,采用基于模拟退火的Q学习算法对所建强化学习模型进行控制策略求解。本技术方案进一步的优化,外骨骼机器人搬运阶段类型Z包括搬起阶段、平移阶段、卸载阶段和预备阶段。本技术方案进一步的优化,步骤2建立“人-外骨骼-生产线”系统的强化学习模型,具体包括,步骤2.1,确定状态,SEMG传感器感知的人体肌体信息P,其状态空间为Φ1={P1,P2,…PK},当前搬运工件的重量M,其状态空间为Φ2={M1,M2,…MN},外骨骼机器人搬运阶段类型Z,其状态空间为Φ2={Z1,Z2,…ZZ},定义SZ,P,M为系统的联合状态,其相应的状态空间为Φ=Φ1×Φ2×Φ3;步骤S2.2,确定行动,“人-外骨骼-生产线”系统中,将人体疲劳等级、工件的重量以及外骨骼机器人搬运阶段类型作为参考搬运过程动力辅助的状态变量,外骨骼机器人的助力权重作为行动;步骤S2.3,确定代价,代价由外骨骼机器人助力耗电代价k1、外骨骼机器人移动耗电代价k2、搬运工件所得实际报酬k3以及超过疲劳警戒线代价k4四部分组成,计算各阶段决策时刻下的累计代价即决策时刻Xd的状态Sd在行动下,跳转到下一决策时刻Xd+1的一步累计代价。累计代价如下,定义搬运阶段类型Z分别用数字0~3表示,疲劳等级P用p表示,工件重量M用m;其中,搬起阶段下,经T时刻下的一步累计代价函数:式(1)中,β为固定的助力权重系数;平移阶段下,经t1时刻的一步累计代价函数:卸载阶段下,经T时刻下的一步累计代价函数:预备阶段下,经t2时刻达到站点的一步累计代价函数:本技术方案进一步的优化,步骤2.3的决策时刻为搬运阶段改变时或/和疲劳等级发生变化时。本技术方案进一步的优化,步骤S3在“人-外骨骼-生产线”系统搬运工件的不同阶段,分别建立搬起阶段疲劳数学模型、平移阶段疲劳数学模型、卸载阶段疲劳数学模型以及预备阶段疲劳数学模型,步骤3.1,在搬起阶段中,工人利用外骨骼机器人的支撑力在规定时间搬起工件至一定高度,动态负荷期间上肢疲劳等级随负重的不同而不同;式(9)中Plift为搬起阶段变化的疲劳等级,P0为当前准备搬运时的疲劳等级,a1、b1、c1、d1为常数;步骤3.2,在平移阶段中,工人利用外骨骼机器人将工件搬运至相应存储库,将此阶段变化的疲劳等级定义为Pmove;Pmove=kFt1+Plift(10),式(10)中t1为平移时间,kF为负荷系数,进一步拟合得到如下关系式:kF=a2F+b2(11),式(11)中a2、b2为常数;步骤3.3、在卸载阶段中,工人通过支撑力将工件存放至存储库;式(12)中Punload为搬起阶段的疲劳等级,a3、b3、c3、d3为常数;步骤3.4、在预备阶段中,建立“人-外骨骼-生产线”系统返回过程的疲劳恢复数学模型;式(13)中:Pprepare是恢复后的疲劳等级,由恢复系数Kr、恢复时间t2、恢复前疲劳等级Punload三部分组成。本技术方案进一步的优化,所述步骤S4确定“人-外骨骼-生产线”系统强化学习模型优化目标,在策略Ω中找到一个最优策略a*,使得系统在无穷时段单位时间期望平均代价最小;式(14)中,Xd为决策时刻,a为优化行动的策略,Ω为优化策略集。本技术方案进一步的优化,采用基于模拟退火的Q学习算法对强化学习模型优化目标进行求解,在平均准则和折扣准则下的Q学习的统一差分公式为式(15)中,f′(Xd,aX,Xd+1)表示从决策时刻Xd到Xd+1累计的代价,ηd为平均代价,其中,Q(·,·)是在平均准则下的状态-行动对的值,Q值为式(16)中,是当前学习步长衰减因子。本技术方案更进一步的优化,Q学习算法求解步骤如下:步骤4.1,定义并初始化Q学习算法中的Q值表、样本轨道总数Z、单条样本轨道决学习步长数L、模拟退火温度H以及模拟退火系数ζ,并令当前样本轨道数z=0;步骤4.2,设置当前决策周期l=0,并随机初始化系统状态sd;步骤4.3,根据Q值表和贪婪策略,选取决策时刻Xd对应状态sd下的贪婪行动agre本文档来自技高网...

【技术保护点】
1.基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,包括如下步骤,/n步骤1,获取外骨骼机器人动力辅助的状态变量外骨骼机器人搬运阶段类型Z、人体疲劳等级P以及工件的重量M;/n步骤2,建立“人-外骨骼-生产线”系统的强化学习模型;/n步骤3,根据强化学习模型需要各个状态的肌体疲劳数学模型;/n步骤4,采用基于模拟退火的Q学习算法对所建强化学习模型进行控制策略求解。/n

【技术特征摘要】
1.基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,包括如下步骤,
步骤1,获取外骨骼机器人动力辅助的状态变量外骨骼机器人搬运阶段类型Z、人体疲劳等级P以及工件的重量M;
步骤2,建立“人-外骨骼-生产线”系统的强化学习模型;
步骤3,根据强化学习模型需要各个状态的肌体疲劳数学模型;
步骤4,采用基于模拟退火的Q学习算法对所建强化学习模型进行控制策略求解。


2.如权利要求1所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述外骨骼机器人搬运阶段类型Z包括搬起阶段、平移阶段、卸载阶段和预备阶段。


3.如权利要求1所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述步骤2强化学习模型的建立具体包括,
步骤2.1,确定状态,人体肌体信息P,其状态空间为Φ1={P1,P2,…PK},当前搬运工件的重量M,其状态空间为Φ2={M1,M2,…MN},外骨骼机器人搬运阶段类型Z,其状态空间为Φ2={Z1,Z2,…ZZ},定义SZ,P,M为系统的联合状态,其相应的状态空间为Φ=Φ1×Φ2×Φ3;
步骤S2.2,确定行动,外骨骼机器人的助力权重作为行动;
步骤S2.3,确定代价,代价由外骨骼机器人助力耗电代价k1、外骨骼机器人移动耗电代价k2、搬运工件所得实际报酬k3以及超过疲劳警戒线代价k4四部分组成,计算各阶段决策时刻下的累计代价即决策时刻Xd的状态Sd在行动下,跳转到下一决策时刻Xd+1的一步累计代价。


4.如权利要求3所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述步骤2.3决策时刻为搬运阶段改变时或/和疲劳等级发生变化时。


5.如权利要求3所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述累计代价如下,定义搬运阶段类型Z分别用数字0~3表示,疲劳等级P用p表示,工件重量M用m;
其中,搬起阶段下,经T时刻下的一步累计代价函数:



式(1)中,β为固定的助力权重系数;
平移阶段下,经t1时刻的一步累计代价函数:



卸载阶段下,经T时刻下的一步累计代价函数:



预备阶段下,经t2时刻达到站点的一步累计代价函数:





6.如权利要求3所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述人体肌肉信息通过SEMG传感器获得。


7.如权利要求3所述的基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,所述步骤S3分别建立搬起阶段疲劳数学模型、平移阶段疲劳数学模型、卸载阶段疲劳数学模型以及预备阶段疲劳数学模型,
步骤3.1,在搬起阶段中,工人利用外骨骼机器人的支撑力在规定时间搬起工件至一定高度,动态负荷期间上肢疲劳等级随负重的不同而不同;



式(9)中Plift为搬起...

【专利技术属性】
技术研发人员:唐昊陈刚段峰戴飞王彬
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1