一种基于深度强化学习的机器人抓取方法技术

技术编号:20996994 阅读:28 留言:0更新日期:2019-04-30 19:58
本发明专利技术涉及机器人技术领域,特别是涉及一种基于深度强化学习的机器人抓取方法。其中,基于深度强化学习的机器人抓取方法包括:获取环境状态参数与预设抓取模型;根据环境状态参数,从预设抓取模型中遍历出最优抓取策略;根据最优抓取策略,控制机器人抓取物料。一方面,其无需视觉标定,便可以控制机器人抓取物料,因此,其能够降低设计难度。另一方面,其能够选择最优抓取策略控制机器人抓取物料,从而提高抓取精度。

【技术实现步骤摘要】
一种基于深度强化学习的机器人抓取方法
本专利技术涉及机器人
,特别是涉及一种基于深度强化学习的机器人抓取方法。
技术介绍
当前,多数机器人空间抓取技术都是基于传统3d视觉算法,抓取物料时,需要用到复杂的机器人视觉标定方法与视觉建模方法,并且,对操作人员需要较高的技术背景。
技术实现思路
本专利技术实施例提供了一种基于深度强化学习的机器人抓取方法,其无需视觉标定便准确地抓取物料。为解决上述技术问题,本专利技术实施例采用的一个技术方案是:提供一种基于深度强化学习的机器人抓取方法,所述方法包括:获取环境状态参数与预设抓取模型;根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;根据所述最优抓取策略,控制所述机器人抓取物料。可选地,所述根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略,包括:根据预设动态规划方程及所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略。可选地,所述根据所述最优抓取策略,控制所述机器人抓取物料,包括:接收抓取指令,所述抓取指令包括相对位移与夹爪状态参数;根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置。可选地,所述夹爪状态参数包括张开抓取参数与关闭抓取参数;所述根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置,包括:若所述夹爪状态参数为张开抓取参数,则控制所述机器人的夹爪按照所述相对位移移动至所述物料并抓取所述物料;若所述夹爪状态参数为关闭抓取参数,则控制所述机器人的夹爪将所述物料放置于预设位置。可选地,所述控制所述机器人的夹爪将所述物料放置于预设位置,包括:接收物料提起指令;根据所述物料提起指令,控制所述机器人的夹爪提起所述物料,并将所述物料放置于预设位置。可选地,所述环境状态参数包括:抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置。可选地,所述方法还包括:训练出所述预设抓取模型。可选地,所述训练出所述预设抓取模型,包括:初始化所述机器人的初始位置与抓取策略,所述抓取策略包括若干类抓取动作;设置所述机器人从物料台抓取物料的抓取高度;确定所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置;从所述抓取策略中选择目标抓取动作;执行所述目标抓取动作;根据所述目标抓取动作,确定策略奖赏;根据在所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置的前提下对应的目标抓取动作及策略奖赏,生成一次路径数据;根据多次路径数据,生成预设抓取模型。可选地,所述抓取策略中每个抓取动作被选择执行的执行概率是相同的,并且所述抓取动作包括普通抓取动作与最优抓取动作;所述从所述抓取策略中选择目标抓取动作,包括:随机选择0至1之间的随机数;判断所述随机数是否大于所述执行概率;若是,从所述抓取策略中选择最优抓取动作为所述目标抓取动作;若否,随机从所述抓取策略中选择任意抓取动作为所述目标抓取动作。可选地,所述根据所述目标抓取动作,确定策略奖赏,包括:若检测到所述机器人抓取到物料时,则按照第一预设奖赏值奖励所述目标抓取动作;若未检测到所述机器人抓取到物料时,则不奖励所述目标抓取动作。为解决上述技术问题,本专利技术实施例采用的一个技术方案是:一种基于深度强化学习的机器人抓取装置,所述装置包括:获取模块,用于获取环境状态参数与预设抓取模型;遍历模块,用于根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;控制模块,用于根据所述最优抓取策略,控制所述机器人抓取物料。可选地,所述遍历模块具体用于:根据预设动态规划方程及所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略。可选地,所述遍历模块包括:接收单元,用于接收抓取指令,所述抓取指令包括相对位移与夹爪状态参数;控制单元,用于根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置。可选地,所述夹爪状态参数包括张开抓取参数与关闭抓取参数;所述控制单元具体用于:若所述夹爪状态参数为张开抓取参数,则控制所述机器人的夹爪按照所述相对位移移动至所述物料并抓取所述物料;若所述夹爪状态参数为关闭抓取参数,则控制所述机器人的夹爪将所述物料放置于预设位置。可选地,所述控制单元还具体用于:接收物料提起指令;根据所述物料提起指令,控制所述机器人的夹爪提起所述物料,并将所述物料放置于预设位置。可选地,所述环境状态参数包括:抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置。可选地,所述装置还包括:训练模块,用于训练出所述预设抓取模型。可选地,所述训练模块包括:初始化单元,用于初始化所述机器人的初始位置与抓取策略,所述抓取策略包括若干类抓取动作;设置单元,用于设置所述机器人从物料台抓取物料的抓取高度;第一确定单元,用于确定所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置;选择单元,用于从所述抓取策略中选择目标抓取动作;执行单元,用于执行所述目标抓取动作;第二确定单元,用于根据所述目标抓取动作,确定策略奖赏;第一生成单元,用于根据在所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置的前提下对应的目标抓取动作及策略奖赏,生成一次路径数据;第二生成单元,用于根据多次路径数据,生成预设抓取模型。可选地,所述抓取策略中每个抓取动作被选择执行的执行概率是相同的,并且所述抓取动作包括普通抓取动作与最优抓取动作;所述选择单元具体用于:随机选择0至1之间的随机数;判断所述随机数是否大于所述执行概率;若是,从所述抓取策略中选择最优抓取动作为所述目标抓取动作;若否,随机从所述抓取策略中选择任意抓取动作为所述目标抓取动作。可选地,所述第二确定单元具体用于:若检测到所述机器人抓取到物料时,则按照第一预设奖赏值奖励所述目标抓取动作;若未检测到所述机器人抓取到物料时,则不奖励所述目标抓取动作。为解决上述技术问题,本专利技术实施例采用的一个技术方案是:一种机器人,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于深度强化学习的机器人抓取方法。为解决上述技术问题,本专利技术实施例采用的一个技术方案是:一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使机器人能够执行上述的基于深度强化学习的机器人抓取方法。本专利技术实施方式的有益效果是:区别于现有技术的情况,获取环境状态参数与预设抓取模型,根据环境状态参数,从预设抓取模型中遍历出最优抓取策略,根据最优抓取策略,控制机器人抓取物料。一方面,其无需视觉标定,便可以控制机器人抓取物料,因此,其能够降低设计难度。另一方面,其能够选择最优抓取策略控制机器人抓取物料,从而提高抓取精度。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本专利技术实施例提供的一种基于深度强化学习的机器人抓取方法的流程示意图;图2是本专利技术另一实施例提供的本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的机器人抓取方法,其特征在于,所述方法包括:获取环境状态参数与预设抓取模型;根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;根据所述最优抓取策略,控制所述机器人抓取物料。

【技术特征摘要】
1.一种基于深度强化学习的机器人抓取方法,其特征在于,所述方法包括:获取环境状态参数与预设抓取模型;根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;根据所述最优抓取策略,控制所述机器人抓取物料。2.根据权利要求1所述的方法,其特征在于,所述根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略,包括:根据预设动态规划方程及所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略。3.根据权利要求2所述的方法,其特征在于,所述根据所述最优抓取策略,控制所述机器人抓取物料,包括:接收抓取指令,所述抓取指令包括相对位移与夹爪状态参数;根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置。4.根据权利要求3所述的方法,其特征在于,所述夹爪状态参数包括张开抓取参数与关闭抓取参数;所述根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置,包括:若所述夹爪状态参数为张开抓取参数,则控制所述机器人的夹爪按照所述相对位移移动至所述物料并抓取所述物料;若所述夹爪状态参数为关闭抓取参数,则控制所述机器人的夹爪将所述物料放置于预设位置。5.根据权利要求4所述的方法,其特征在于,所述控制所述机器人的夹爪将所述物料放置于预设位置,包括:接收物料提起指令;根据所述物料提起指令,控制所述机器人的夹爪提起所述物料,并将所述物料放置于预设位置。6.根据权利要求1至5任一项所述的方法,其特征在于,所述环境状态参数包括:抓取物料...

【专利技术属性】
技术研发人员:黄睿郎需林刘培超林俊凯林炯辉
申请(专利权)人:深圳市越疆科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1