一种基于深度强化学习和制造技术

技术编号:39840330 阅读:29 留言:0更新日期:2023-12-29 16:26
一种基于深度强化学习和

【技术实现步骤摘要】
一种基于深度强化学习和TSK

FS模糊推理的机器人抓取方法及系统


[0001]本专利技术属于机器人视觉定位抓取
,具体涉及一种基于深度强化学习和
TSK

FS(Takagi

Sugeno

Kang Fuzzy System

TSK

FS)
模糊推理的机器人抓取方法及系统


技术介绍

[0002]在机器人操作领域,抓取问题是实现与现实世界交互的主要手段

机器人抓取操作应用广泛,不仅可以协助完成物流仓储码垛任务及装配加工工作,在协助完成家务及人机协作中也有不俗表现,但在实际场景中抓取操作经常面临着非结构化

未知的工作环境,这些复杂环境给基于计算机程序工作的机械臂带来了巨大的挑战

[0003]机械臂熟练的操作技巧受益于抓握
(
抓取
)
与非抓握
(
推动
)
>动作的协调,推动能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习和
TSK

FS
模糊推理的机器人抓取方法,其特征在于,所述方法具体包括以下步骤:步骤一


t
时刻,利用设置在机器人上的深度相机捕获正对机器人工作场景的彩色图像和深度图像,再对捕获的彩色图像和深度图像进行预处理,得到机械臂基座坐标系下的彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
;步骤二

分别构建推动动作评价网络
Q
P
和抓取动作评价网络
Q
G
,将彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
作为推动动作评价网络
Q
P
的输入,利用推动动作评价网络
Q
P
输出推动动作价值
q
P
,将彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
作为抓取动作评价网络
Q
G
的输入,利用抓取动作评价网络
Q
G
输出抓取动作价值
q
G
;步骤三

将推动动作价值
q
P

抓取动作价值
q
G

目标物体边缘物体占有率
r
O
以及连续抓取失败次数
f
G
作为
TSK

FS
模糊推理网络的输入,利用
TSK

FS
模糊推理网络输出决策动作;所述决策动作为推动或抓取;步骤四


TSK

FS
模糊推理网络输出的决策动作作为深度强化学习模型的输入,选择出使深度强化学习模型的动作价值评价网络的输出达到最大时的动作;步骤五

控制器根据步骤四中输出的动作对机器人的机械臂和机械臂末端执行器进行控制;步骤六

判断是否已经完成对目标物体的抓取任务;若已经完成对目标物体的抓取任务,则整个抓取方法结束;若未完成对目标物体的抓取任务,则执行步骤七;步骤七

判断是否达到了设置的最大抓取失败次数;若未达到设置的最大抓取失败次数,则直接执行步骤八;若达到了设置的最大抓取失败次数,则重置机器人后再执行步骤八;步骤八


t

t+1
,返回执行步骤一
。2.
根据权利要求1所述的一种基于深度强化学习和
TSK

FS
模糊推理的机器人抓取方法,其特征在于,所述步骤一中,对捕获的彩色图像和深度图像进行预处理,得到机械臂基座坐标系下的彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
;其具体过程为:步骤一一

将彩色图像中的彩色像素信息与深度图像中的深度像素信息全部映射在深度相机左目上,以实现彩色像素信息与深度像素信息的匹配;步骤一二

利用像素信息与相机内参矩阵,得到各像素点在相机坐标系下的
3D
位置,再利用相机坐标系与机械臂基座坐标系之间的转换关系,将
3D
点云信息转换至机械臂基座坐标系下;步骤一三

根据机械臂末端的工作区间范围,筛除工作区间范围以外的
3D
点云信息,再将剩余的
3D
点云信息沿重力方向投影后,分别生成彩色信息图
c
t
和深度信息图
d
t
;步骤一四

根据彩色信息图
c
t
和语义分割算法得到待抓取的目标物体的二值掩码信息图
m
t
。3.
根据权利要求2所述的一种基于深度强化学习和
TSK

FS
模糊推理的机器人抓取方法,其特征在于,所述推动动作评价网络
Q
P
的工作过程为:将彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
分别作为推动动作评价网络
Q
P
的三个卷积通道的输入,再将三个卷积通道的输出共同送入
DenseNet
主干网络,最后将
DenseNet
主干网络的输出作为第一特征融合模块的输入,利用第一特征融合模块输出推动动作价值
q
P
;所述三个卷积通道的结构相同,且每个卷积通道内均包括一个卷积层;所述第一特征融合模块内包括1个批量化归一层
、2
个反卷积层
、2
个卷积层以及1个上采样层,且每个卷积层后均连接有
ReLu
激活函数层
。4.
根据权利要求3所述的一种基于深度强化学习和
TSK

FS
模糊推理的机器人抓取方法,其特征在于,所述抓取动作评价网络
Q
G
的工作过程为:将彩色信息图
c
t

深度信息图
d
t
和目标物体掩码图
m
t
分别作为推动动作评价网络
Q
P
的三个卷积通道的输入,再将三个卷积通道的输出共同送入
DenseNet
主干网络,最后将
DenseNet
主干网络的输出作为第二特征融合模块的输入,利用第二特征融合模块输出推动动作价值
q
P
;所述三个卷积通道的结构相同,且每个卷积通道内均包括一个卷积层;所述第二特征融合模块内包括2个相同结构的特征融合单元和1个上采样层,且每个特征融合单元内均包括1个批量归一化层和1个大小为1×1的卷积层,且在卷积层后连接有
ReLu
激活函数层
。5.
根据权利要求4所述的一种基于深度强化学习和
TSK

FS
模糊推理的机器人抓取方法,其特征在于,所述
TSK

FS
模糊推理网络的输出为:其中,
x
是由
q
P
,q
G
,r
...

【专利技术属性】
技术研发人员:高亚斌刘澳华刘健行吴立刚候其敏刘壮孙艺倬匡冀源
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1