一种适用于生活场景的基于U2-Net的平面抓取位姿检测模型制造技术

技术编号:40577436 阅读:29 留言:0更新日期:2024-03-06 17:19
本发明专利技术属于深度学习和机器人控制技术领域,具体涉及一种适用于生活场景的基于U2‑Net的平面抓取位姿检测模型。本发明专利技术模型通过将U<supgt;2</supgt;‑Net和注意力机制相结合对输入图像进行特征提取,之后通过解码预测获得抓取配置所需的宽度热图、角度热图和质量热图,进而在输入图像中获得的相应的抓取配置。该模型不仅可以通过Shuffle Attention注意力机制在不同子特征之间实现信息交流,使模型在该层级保留且聚焦重要的特征信息;还可以通过两级嵌套U型结构从RGB‑D图像中捕获更多的上下文信息,从而避免了多次下采样操作造成的部分特征信息丢失。本发明专利技术模型可以被广泛应用于各种非结构化的日常生活场景中的抓取检测任务,且该模型具备更强的鲁棒性和泛化性能。

【技术实现步骤摘要】

本专利技术属于深度学习和机器人控制,具体涉及一种适用于生活场景的基于u2-net的平面抓取位姿检测模型。


技术介绍

1、机器人已经成为工业制造和日常生活中的常见存在,抓取物体是机器人执行任务中的基本行为能力,它也是机器人能够顺利完成许多其他给关键任务的基础。然而机器人对日常生活场景中的杂乱的物体的抓取仍然面临着较大的挑战,这主要是因为机器人目前的环境感知能力有限,难以精准地捕捉工作场景的特征,从而在应对复杂的抓取任务时难以映射准确的抓取配置。

2、目前在机器人抓取检测领域中大多数是采用数据驱动的机器学习的方法来处理检测任务的,部分研究人员采用两阶段抓取检测模型,第一阶段生成一系列抓取候选,然后在第二阶段从候选中选择最佳抓取位置,但是该方法生成候选方法耗时过长,检测准确率较低。部分研究人员采用基于回归的单阶段抓握检测模型,以rgb图像为输入,利用5个卷积层提取图像特征,通过全连接层回归生成所需的抓取矩形参数,但直接回归获取抓取矩形参数的准确性相对较低。morrison等人提出一种生成式抓取方法,以depth图像为输入,使用三个卷积层将图像下采样以本文档来自技高网...

【技术保护点】

1.一种适用于生活场景的基于U2-Net的平面抓取位姿检测模型,其特征在于,该模型的建立方法包括如下步骤:

2.根据权利要求1所述的一种适用于生活场景的基于U2-Net的平面抓取位姿检测模型,其特征在于,步骤1)中:抓取数据集为当前已经公开的Cornell抓取数据集,该数据集由240个不同对象的885个RGB、Depth图像和相关的点云文件组成,在每张图像中手工标注了多个抓取矩形框与被抓取对象的潜在抓取姿态相对应,且抓取对象均为生活场景中常见的物品。

3.根据权利要求2所述的一种适用于生活场景的基于U2-Net的平面抓取位姿检测模型,其特征在于,步骤1)中:对Co...

【技术特征摘要】

1.一种适用于生活场景的基于u2-net的平面抓取位姿检测模型,其特征在于,该模型的建立方法包括如下步骤:

2.根据权利要求1所述的一种适用于生活场景的基于u2-net的平面抓取位姿检测模型,其特征在于,步骤1)中:抓取数据集为当前已经公开的cornell抓取数据集,该数据集由240个不同对象的885个rgb、depth图像和相关的点云文件组成,在每张图像中手工标注了多个抓取矩形框与被抓取对象的潜在抓取姿态相对应,且抓取对象均为生活场景中常见的物品。

3.根据权利要求2所述的一种适用于生活场景的基于u2-net的平面抓取位姿检测模型,其特征在于,步骤1)中:对cornell抓取数据集的预处理应用数据增强技术,预处理包括图像的随机裁剪与拼接、图像尺寸随机的放大与缩小、图像随机旋转角度、图像水平或垂直翻转、图像进行模糊处理和图像颜色亮度随机改变,并对其归一化,将图像尺寸调整为224×224像素大小。

4.根据权利要求3所述的一种适用于生活场景的基于u2-net的平面抓取位姿检测模型,其特征在于,步骤2)中:深度学习模型是一个两层嵌套的u形结构,其外层是由编码器-解码器组成的11级大u形结构,每个阶段都由一个残差u型块rsu组成,嵌套的u形结构可以更有效地提取阶段内的多尺度特征并聚合阶段之间的多级特征。

5.根据权利要求4所述的一种适用于生活场景的基于u2-net的平面抓取位姿检测模型,其特征在于,步骤2)中:在某些阶段之后引...

【专利技术属性】
技术研发人员:徐向荣俞青松缪海宁崔欢欢刘胤真蒲泉成郜菊
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1