用于使用变换器块来执行密集预测的方法和设备技术

技术编号：37057924 阅读：21 留言：0更新日期：2023-03-29 19:34

本文所公开的方法、设备、系统和制品使用图像处理系统的重组件级处和编码器级处的变换器来执行输入图像的密集预测。所公开的设备包括编码器，其具有将输入图像转换成表示从输入图像所提取的特征的多个标记的嵌入器。采用可学习位置嵌入来嵌入所述标记。编码器还包括一个或多个变换器，所述变换器配置在级序列中以将标记彼此相关。所述设备进一步包括解码器，所述解码器包括将标记组装为特征表示的重组器的一个或多个、组合特征表示以生成最终特征表示的融合块的一个或多个以及基于最终特征表示并且基于输出任务来生成密集预测的输出头端。出头端。出头端。

全部详细技术资料下载

【技术实现步骤摘要】
用于使用变换器块来执行密集预测的方法和设备

[0001]本公开一般涉及计算机视觉中的密集预测，更特别涉及使用变换器块来执行密集预测以用于改进计算机视觉中的密集预测的方法和设备。

技术介绍

[0002]计算机视觉表示计算机化技术，所述计算机化技术允许计算机系统获得对数字图像或视频的高级理解。高级理解然后能够用来通知关于动作是否将被采取/推荐。通常使用全卷积深度网络来执行称作密集预测的计算机视觉的一个方面。
[0003]密集预测表示预测将与图像中的每一个像素关联的标签（或者多个标签）的任务。例如，语义分割标签标识与图像中被表示的内容（例如建筑物、天空、汽车、人等）对应的类。另外，深度估计标签标识被处理的图像与图像的观察者之间的距离。进一步，关键点检测标签表示像素是关键点的可能性。关键点像素占据图像中与图像中感兴趣的内容（例如突出的内容）相关的点。光流标签标识当前帧中被标记的像素相对于另一个帧的视运动（apparent motion）。
附图说明
[0004]图1是根据本文所公开的教导来实现密集预测器的图像处理系统的框图。
[0005]图2A是图1的密集预测器的变换器编码器/嵌入器的框图。
[0006]图2B是图1的密集预测器的变换器级的集合中的一个变换器级的框图。
[0007]图3是图1的密集预测器的重组器的框图。
[0008]图4A是图1的密集预测器的融合模块的框图。
[0009]图4B是残差卷积网络的框图。
[0010]图5A是输入图像以及显示与...

【技术保护点】

【技术特征摘要】
1.一种设备，包括：编码器，包括：嵌入器，所述嵌入器将输入图像转换成多个标记，所述多个标记表示从所述输入图像所提取的特征，并且所述嵌入器采用可学习位置来嵌入所述多个标记；以及多个变换器，所述多个变换器配置在级序列中以将所述多个标记的每个与其他标记相关；解码器，包括：多个重组器，所述多个重组器与所述多个变换器的对应变换器关联，所述多个重组器的每个从所述多个变换器的所述对应变换器接收输出，并且将所述标记组装为特征表示；多个融合块，所述多个融合块组合所述特征表示以形成最终特征表示；以及输出头端，所述输出头端基于所述最终特征表示和输出任务来生成密集预测。2.如权利要求1所述的设备，其中，所述嵌入器生成特殊贴片独立标记，并且将所述特殊贴片独立标记加到所述多个标记。3.如权利要求1或权利要求2所述的设备，其中，在变换器级的集合的每级保持相同数量的标记。4.如权利要求1或权利要求2所述的设备，其中，所述嵌入器：将所述输入图像划分为相同像素大小的非重叠贴片；将所述贴片展平为向量；以及使用线性投影单独嵌入所述贴片，所述标记对应于所嵌入的贴片。5.如权利要求1或权利要求2所述的设备，其中，所述重组器包括：标记读取器，所述标记读取器读取所述多个标记；级联器，所述级联器对所述标记读取器的输出执行空间级联操作，以生成所述特征表示；以及再取样器，所述再取样器将所述特征表示缩放到除以标量的所述输入图像的标量高度以及除以相同标量的所述输入图像的宽度。6.如权利要求1或权利要求2所述的设备，其中，所述重组器：以更低分辨率将所述标记重组为来自所述变换器级的更深级的特征表示；以及以更高分辨率将所述标记组装为来自所述变换器级的早期级的特征表示。7.如权利要求1或权利要求2所述的设备，其中，所述重组器将每个标记放置到由从所述输入图像所提取的每个对应贴片所占据的位置中，所述标记在被放置到所述对应位置中时形成所述特征表示。8.一种设备，包括：存储器；至少一个处理器；以及存储在所述存储器上的指令，所述指令在被执行时使所述至少一个处理器：将输入图像转换成多个（N个）标记，所述N个标记的相应标记基于所述输入图像的相应非重叠贴片，所述N个标记包括位置信息，所述位置信息识别相应位置，在所述相应位置中所述相应非重叠贴片适合于所述输入图像内；在所述标记已经经过变换器级之后将所述N个标记重组为特征表示，由所述变换器级
的更深变换器级所输出的所述标记的标记以第一分辨率被组装，由所述变换器级的早期变换器级所输出的所述标记的标记以第二分辨率被组装，所述第一分辨率低于所述第二分辨率；使用残差网络的连续级渐进地融合所述特征表示，以及在所述残差网络的每级中通过二的因子对于由所述残差网络的相应级所输出的相应表示进行上取样；以及基于所融合的特征图来生成密集预测。9.如权利要求8所述的设备，其中，所述至少一个处理器进一步生成特殊贴片独立标记，并且将所述特殊标记级联到所述N个标记。10.如权利要求8或权利要求9所述的设备，其中，在所述变换器级的每级保持相同数量的标记。11.如权利要求8或权利要求9所述的设备，其中，所述至少一个处理器进一步：将所述输入图像划分为所述非重叠贴片，所述非重叠贴片具有相同数量的像素；将所述N个标记展平为向量；以及将线性投影应用于所述N个标记，以嵌入所述标记。12.如权利要求8或权利要求9所述的设备，其中，为了重组所述N个标记，所述至少一个处理器：读取所述N个标记；在空间上级联所述N个标记，以生成特征图；以及对所述特征图进行再取样，以生成所述输入图像的缩放的表示，所缩放的表示...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人