【技术实现步骤摘要】
一种基于深度强化学习的机械臂运动规划方法和系统
[0001]本专利技术属于智能机械臂控制领域,更具体地,涉及一种基于深度强化学习的机械臂运动规划方法和系统。
技术介绍
[0002]在科学技术的推动下,机器人逐渐进入到各行各业,其可以代替或协助人类高效的完成复杂多样的任务,提高生产效率并且降低生产成本。但是传统机器人控制大都以人为主导,即机器人只会按照人所设定的程序逻辑进行相应动作,难以适应非结构化、不确定性环境。而人工智能技术的发展催生了智能机器人,相比一般机器人而言,其对随机变化环境的适应性更强,在智能算法的驱动下可以根据真实环境做出合理决策,且具有自主学习能力,可减少对人类专家知识经验的依赖。智能机器人兼具感知、运动、决策等多个要素,能够在一定程度上融合真实场景信息做出最合理的动作,更符合人类发展的需求。因此机器人智能化已然成为机器人未来发展的趋势,机械臂是机器人的一种,其应用广泛,有着丰富的应用场景。
[0003]近些年来,深度强化学习(Deep Reinforcement Learning,DRL)的发展如火如荼,并在游戏、智能交通、自动驾驶、智能医疗等领域都发挥了极大的作用。DRL结合了深度学习对环境信息的感知能力同时也兼具强化学习对经验数据的决策能力,通过模仿人的学习过程使智能体拥有类人化的思维。目前,DRL也被广泛应用于机械臂控制领域中,基于DRL的机械臂运动规划方法实现了深度学习和强化学习的优势互补,并结合常规的控制理论、机器人学等领域知识为机械臂智能控制提供新思路。
[0004]深度 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的机械臂运动规划方法,其特征在于,包括:在仿真环境中的不同任务场景下对深度强化学习网络进行训练,将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池;当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时,将深度强化学习网络训练得到的损失值和奖励值输入神经网络,输出权重,按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,将训练得到新的损失值和奖励值输入神经网络,输出新的权重,按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练,循环迭代至深度强化学习网络收敛,得到训练好的深度强化学习网络;将真实环境下识别的目标物体位姿映射到仿真环境中,将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络进行运动规划,得到真实环境下机械臂抓取目标物体的最优路径。2.如权利要求1所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述训练时的任务场景包括:目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景,以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景。3.如权利要求2所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述训练时的任务场景为任务一场景时,奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。4.如权利要求3所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述姿态奖励函数为:其中,R
original
(D
PT
)=J
reach
+R
dis
(D
PT
)+R
done
+R
obstacle
,J
reach
表示任务状态项,即是否完成运动规划任务,完成即为1,未完成即为0,R
dis
表示机械臂工具末端与目标点之间的曼哈顿距离D
PT
的相反数,R
done
表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励,R
obstacle
表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值,表示机械臂期望运动方向与实际运动方向的两个空间三维向量的夹角,代表一个数学操作,当的值小于π/2时,否则R
posture
表示姿态奖励值。5.如权利要求4所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述步长奖励函数为:其中,R
stride
表示步长奖励值,表示机械臂的关节速度向量,表示机械臂的关节运动约束,/N
J
,Δt表示机械臂对控制信号的响应时间,N
J
表示机械臂的自由度。6.如权利要求5所述的一种基于深度强化学习的机械臂运动规划方法,其特征在于,所述人工设置动态域奖励函数为:
R
MDA
=δ
·
[R
posture
,R
stride
]
T
=δ
posture
·
R
posture
+δ
stride
·
R
stride
其中,R
MDA
表示人工设置动态域奖励值,δ由姿态系数δ
posture
和步长系数δ
stride
组成,将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离D
PT
大于等于预设值的区域作为快速搜索区域,其余区域为慢速调整区域,快速搜索区域内姿态系数和步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。