基于多智能体深度强化学习的五指灵巧机器手控制方法技术

技术编号:37990547 阅读:19 留言:0更新日期:2023-06-30 10:05
本发明专利技术提供一种基于多智能体深度强化学习的五指灵巧机器手控制方法。考虑一个与人手大小和结构相同的五指灵巧机器手,场景中有一个放置在桌面的物体,通过将五根手指以及手腕和手臂视作单独的智能体分别进行训练,彼此分工协作,最终完成抓取物体的任务。本发明专利技术考虑到了机器手各关节的协作关系,通过多智能体方法在保证机器手完成抓取物体的任务前提下,将整个抓取过程进一步细致化和精细化,让机器手的抓取动作更加贴近理想的姿态、各手指更加灵活自由,完成更多单智能体无法完成的细节抓取动作。同时,本发明专利技术可以在不需要数据集的情况下对抓取物体任务进行有效的学习,减轻了收集大量数据的负担,并提高了机器五指手对陌生物体和环境的适应能力。体和环境的适应能力。体和环境的适应能力。

【技术实现步骤摘要】
基于多智能体深度强化学习的五指灵巧机器手控制方法


[0001]本专利技术属于机器人控制
,具体涉及一种基于多智能体深度强化学习的五指灵巧机器手控制方法。

技术介绍

[0002]机器手最早在工业界被提出并应用,其目的是代替人类完成各种工序重复的流程性任务。最早的工业机器手在外观设计上大多采用两指机器手,仅限于简单的推拉或夹取操作;在控制方法上,早期的工业机器手也仅仅是在电路控制下完成简易的动作。随着人类对工业机器手的需求增大,具备传感器的五指机器手逐渐被投入使用,但依旧仅能完成简单的行为。
[0003]近年来,得益于人工智能与神经网络的快速发展,以深度学习为代表的监督学习方法使机器人抓取控制研究取得重大突破,对五指灵巧机器手的研究内容不再局限于简单重复的机械运动,而是进入了更智能、更灵活、更拟人化的新阶段。五指灵巧手不仅可以协助人类完成各种精细操作,提高工作效率,还可以代替人类执行更多具有危险性的任务,使人类的生活越来越智能化。然而,基于深度学习的灵巧手控制方法很难摆脱需要依赖大量数据协助机器手进行训练的问题,这会给机器人以及研究人本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的五指灵巧机器手控制方法,其特征在于,具体步骤如下:(1)建立动作空间与状态空间:智能体包括手指、手掌和手臂,每个智能体都包含一个用于生成下一时刻动作的动作决策主网络和一个用于评价该动作好坏的动作评价主网络,以及一个动作决策目标网络和一个动作评价目标网络;动作决策主网络和动作决策目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度与当前智能体的状态维度相同,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度与当前智能体的动作维度相同;每层网络的输出均使用Tanh函数作为激活函数,三层网络级联,第三层网络的输出作为当前智能体的动作使用;动作评价主网络和动作评价目标网络的结构相同,具体如下:网络共包含三层全连接层,第一层网络的输入维度是当前智能体的状态维度和动作维度之和,输出维度为64维;第二层网络的输入与输出维度都为64维;第三层网络的输入维度为64维,输出维度为1;前两层网络的输出均使用ReLU激活函数激活,三层网络级联,第三层网络的输出作为评价当前智能体动作好坏的评分使用;对于任意第个决策周期,每个智能体的状态定义如下:对于五个手指,各自的状态由当前手指上的关节角度以及当前手指指尖到物体目标抓取点的距离组成;对于手掌和手臂,状态分别由对应智能体上的关节角度以及手掌中心点到物体中心的距离组成;各智能体的状态按照大拇指、食指、中指、无名指、小拇指、手掌、手臂的顺序分别记为分别输入到各自的动作决策主网络;动作决策主网络会输出对应智能体的关节力,分别记为每个智能体的状态和动作输入至各自的动作评价主网络,其中,i=1,2,

,7,输出一个评价当前智能体动作好坏的评分Q(s,a|μ),μ为动作评价主网络的参数;(2)设定奖励函数:对于每个智能体,动作决策主网络输出的动作是一个确定值,为了增加智能体训练初期随机探索的程度,将关节力与一个均值为0、方差为δ的高斯噪声叠加,随着训练的进行,方差δ逐渐减少至0,即智能体随机探索的程度会逐渐减弱,直至收敛到一个准确值;在智能体将上一个决策周期的状态输入动作决策主网络,输出动作后,智能体根据执行动作后观测到的新状态来计算奖励值为了让机器手更好的完成一个完整的抓取任务,将任务细分为三个阶段:靠近阶段,抓握阶段以及拾起阶段;根据机器手处于不同阶段设置了三种奖励函数具体来说,在靠近阶段,奖励设置如下:其中,d1表示的是手掌中心点与物体中心点之间距离,奖励为距离d1的负数,该奖励表明当手掌离物体越近,奖励值越大,越接近零;公式(1)的奖励仅作用于手掌和手臂两个智能体;在抓取阶段,奖励设置如下:
奖励对应三种情况:一是当手掌距离物体距离d1大于0.1米时,该奖励值为

3;二是当手掌与物体距离d1小于等于0.1米但大于0时,该奖励值设置为手指指尖到物体表面对应抓取点之间的距离d2的负数;三是当指尖完全接触到物体表面预设点位置时,此时d1=0,奖...

【专利技术属性】
技术研发人员:李轩衡贾沛达孙怡
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1