一种基于多尺度池化Transformer的图像内部遮挡关系预测方法技术

技术编号：40122927 阅读：58 留言：0更新日期：2024-01-23 20:56

本发明专利技术公开了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。所述的方法包括以下步骤：输入图像首先通过由卷积模块、图像切分模块和多尺度池化Transformer模块组成的编码器；然后这些特征通过逐层对应连接由一些多尺度池化Transformer模块组成的解码器；接着这些特征分别通过预测器里面两个独立的神经网络分支，分别负责生成边缘检测图和遮挡方向图；最后在方法的预测器结构内，边缘检测图和遮挡方向图通过非极大值抑制（NMS）计算后，生成遮挡关系图。本发明专利技术是目前首次使用含有Transformer的深度神经网络进行图像内部遮挡关系预测的方法，并首次提出了多尺度池化的Transformer结构，本发明专利技术相比已有的其他方法有更好的预测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，更具体地，涉及一种基于多尺度池化transformer的图像内部遮挡关系预测方法。

技术介绍

1、通过视觉算法对图像内部区域的遮挡关系进行预测是进行视觉理解和分析的重要技术。对遮挡关系的准确预测能够在不引入三维信息的情况下，仅依靠二维信息准确判断图像内部各区域的空间前后顺序，从而有助于从二维信息直接获取三维深度信息，并帮助更加准确地进行视觉分析和视觉理解。

2、目前，图像内部区域的遮挡关系的预测方法主要是基于深度卷积神经网络而开展的，通用的思路是构建一个深度卷积神经网络，然后使用网络生成遮挡关系图作为最终的预测结果。当前方法通过设计各类卷积神经网络实现预测的功能，已经取得了一定的效果，但是，当前方法的普遍问题是卷积神经网络的图像内容局部建模能力较强，但全局建模能力较弱，这会导致依靠局部特征预测出来的结果无法有效表示全局信息，从而在许多场景下出现错误的遮挡关系预测结果，这是单纯采用卷积神经网络作为解决方案所必然存在的问题。

技术实现思路

1、针对目前...

【技术保护点】

1.一种基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化Transformer模块，输入图像输入编码器后，各个模块串联依次进行运算；

3.如权利要求2所述的基于多尺度池化Transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第一多尺度池化Transformer单元具体的计算包括：

4.如权利要求2所述的基于多尺度池化Transf...

【技术特征摘要】

1.一种基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于：编码器包括1个第一卷积模块、1个图像切分模块和4个第一多尺度池化transformer模块，输入图像输入编码器后，各个模块串联依次进行运算；

3.如权利要求2所述的基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第一多尺度池化transformer单元具体的计算包括：

4.如权利要求2所述的基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第一特征维度转换模块具体的计算方式是将输入的图像元特征维度变换为特征图的样式，即将维度由两个维度的特征调整为三个维度的特征；

5.如权利要求2所述的基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于：步骤1-3中的第二特征维度转换模块具体的计算方式是将输入的特征维度由特征图变换为图像元特征维度的样式，即将特征维度由三个维度调整为两个维度的特征；第二特征维度转换模块的功能和第一特征维度转换模块正好相反。

6.如权利要求2所述的基于多尺度池化transformer的图像内部遮挡关系预测方法，其特征在于：解码器包括1个第二多尺度池化transformer模块和3个第三多尺度池化transformer模块；解码器内部的计算和结构具体包括：

7.如权利要求6所述的基于多尺度池化transf...

【专利技术属性】
技术研发人员：颜小运，王兆静，李敏，李映进，王晨，杨凯，欧浩，余可，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人