一种基于深度强化学习的机械臂协作自主抓取方法技术

技术编号：45095974 阅读：24 留言：0更新日期：2025-04-25 18:33

本发明专利技术提供一种基于深度强化学习的机械臂协作抓取方法，涉及机器人应用技术领域，旨在解决复杂场景下多物体抓取方法中网络不稳定，样本效率低，行为不合理的问题。该方法包括：构建协作自主抓取决策网络模型，通过逐像素预测获取推动与抓取动作的状态动作价值分布；引入物体掩码函数，对无效区域进行过滤，减少负样本对模型收敛速度的影响；设计不同行为约束策略对网络预测中不合理的行为进行抑制，优化机械臂动作选择；设计多元奖励函数，动态调整奖励机制，指导模型学习更加符合任务目标的动作策略。本发明专利技术通过仿真和真实实验环境验证，能够提高机械臂在非结构化场景下的任务成功率和完成效率，具有良好的鲁棒性和适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人应用，具体涉及了一种基于深度强化学习的机械臂协作自主抓取方法。

技术介绍

1、随着机器人技术和人工智能的快速发展，基于机械臂的智能抓取任务在工业自动化、物流分拣和服务机器人领域发挥了重要作用。然而，在复杂场景中实现高效、稳定的抓取操作依然面临诸多挑战，例如多物体紧密堆叠、场景动态变化及操作过程中的安全性和准确性问题。

2、传统的机械臂抓取方法多依赖于精准的环境建模和预先定义的规则，通过特定算法规划机械臂的操作路径。但此类方法在面对复杂的动态环境或未知场景时，往往表现出适应性不足，且对环境高度依赖的问题，大大限制了其应用范围。近年来，深度学习和强化学习技术在机器人智能决策领域取得了显著进展，为复杂抓取任务提供了新的解决方案。在基于强化学习的抓取任务中，如何高效地提取场景空间特征、设计合理的动作价值评估机制，以及优化训练效率，仍是影响实际应用效果的关键问题。此外，强化学习技术虽然为机械臂自主决策提供了新思路，但常规的q学习或深度q网络在处理连续状态空间和大规模动作空间时容易出现不稳定性、收敛速度慢以及动作选择...

【技术保护点】

1.一种基于深度强化学习的机械臂协作自主抓取方法，其特征在于，包含以下：

2.根据权利要求1所述的一种基于深度强化学习的机械臂协作自主抓取方法，其特征在于：基于环境状态高度图构建特征提取网络，从输入数据中提取具有代表性的空间特征得到特征向量，并构建推动/抓取动作网络预测模型，将前述特征向量作为输入，结合状态特征与动作价值进行策略评估，预测候选动作的状态动作评估值分布；具体为：首先将环境状态高度图中的单通道深度高度图复制得到3通道数据，随后将彩色高度图和深度高度图分别进行旋转处理后输入共享特征融合模块，并将其输出作为高层特征提取网络的输入，得到中间特征向量，将中间特征向量进行彩...

【技术特征摘要】

1.一种基于深度强化学习的机械臂协作自主抓取方法，其特征在于，包含以下：

3.根据权利要求1所述的一种基于深度强化学习的机械臂协作自主抓取方法，其特征在于：构建网络完成后，根据策略选择执行动作，对推动与抓取动作分别引入物体掩码函数mp_obj和mg_obj作为先验信息，引导机械臂进行有意义的空间探索；具体来说：对于推动动作而言，在仿真环境下根据环境状态的初始化设置获得物体索引，根据其坐标得到物体垂直投影的轮廓，通过阈值分割将物体轮廓内填充为1，轮廓外填充为0，得到仿真环境下的掩码函数；在真实物理实验环境中，根据工作空间的深度高度图获得掩码函数，具体来说：首先根据公式将深度高度图进行归一化，其中d(x,y)为深度图像素值，dmin和dmax为深度值最小值和最大值，d′(x,y)是归一化后的深度图像素值；根据深度分布设置图像前景物体和背景分离的深度阈值tthre，将深度值大于阈值的像素点设置为1，否则设置为0，得到推动二值掩码mp_obj。

4.根据权利要求3所述的一种基于深度强化学习的机械臂协作自主抓取方法，其特征在于：构建网络完成后，根据策略选择执行动作，对推动与抓取动作分别引入物体掩码函数mp_obj和mg_obj作为先验信息，引导机械臂进行有意义的空间探索；具体来说：对于抓取动作而言，仿真环境中处理方法与推动动作相同，在真实实验环境中，对深度高度图进行归一化和滤波处理，然后进行阈值...

【专利技术属性】
技术研发人员：王俊生，李晓甜，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人