当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于使用变换器块来执行密集预测的方法和设备技术

技术编号:37057924 阅读:21 留言:0更新日期:2023-03-29 19:34
本文所公开的方法、设备、系统和制品使用图像处理系统的重组件级处和编码器级处的变换器来执行输入图像的密集预测。所公开的设备包括编码器,其具有将输入图像转换成表示从输入图像所提取的特征的多个标记的嵌入器。采用可学习位置嵌入来嵌入所述标记。编码器还包括一个或多个变换器,所述变换器配置在级序列中以将标记彼此相关。所述设备进一步包括解码器,所述解码器包括将标记组装为特征表示的重组器的一个或多个、组合特征表示以生成最终特征表示的融合块的一个或多个以及基于最终特征表示并且基于输出任务来生成密集预测的输出头端。出头端。出头端。

【技术实现步骤摘要】
用于使用变换器块来执行密集预测的方法和设备


[0001]本公开一般涉及计算机视觉中的密集预测,更特别涉及使用变换器块来执行密集预测以用于改进计算机视觉中的密集预测的方法和设备。

技术介绍

[0002]计算机视觉表示计算机化技术,所述计算机化技术允许计算机系统获得对数字图像或视频的高级理解。高级理解然后能够用来通知关于动作是否将被采取/推荐。通常使用全卷积深度网络来执行称作密集预测的计算机视觉的一个方面。
[0003]密集预测表示预测将与图像中的每一个像素关联的标签(或者多个标签)的任务。例如,语义分割标签标识与图像中被表示的内容(例如建筑物、天空、汽车、人等)对应的类。另外,深度估计标签标识被处理的图像与图像的观察者之间的距离。进一步,关键点检测标签表示像素是关键点的可能性。关键点像素占据图像中与图像中感兴趣的内容(例如突出的内容)相关的点。光流标签标识当前帧中被标记的像素相对于另一个帧的视运动(apparent motion)。
附图说明
[0004]图1是根据本文所公开的教导来实现密集预测器的图像处理系统的框图。
[0005]图2A是图1的密集预测器的变换器编码器/嵌入器的框图。
[0006]图2B是图1的密集预测器的变换器级的集合中的一个变换器级的框图。
[0007]图3是图1的密集预测器的重组器的框图。
[0008]图4A是图1的密集预测器的融合模块的框图。
[0009]图4B是残差卷积网络的框图。
[0010]图5A是输入图像以及显示与MiDaS全卷积架构相比使用图1的密集预测器的对应单目深度估计的图像的密集预测的集合。
[0011]图5B是示出使用图1的密集预测器所生成的以及使用单目深度估计中的现有技术所生成的单目深度估计的数值比较的表。
[0012]图6A是输入图像以及显示使用图1的密集预测器以及使用其他预测技术所生成的对应语义分割估计的图像的密集预测的集合。
[0013]图6B是示出使用图1的密集预测器所生成的以及使用其他预测技术所生成的语义分割的数值比较的表。
[0014]图7是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器。
[0015]图8是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器的嵌入器。
[0016]图9是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器的变换器级的集合。
[0017]图10是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器的重组器。
[0018]图11是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器的融合块。
[0019]图12是表示示例机器可读指令的流程图,所述机器可读指令可由示例处理器电路模块来执行以实现图1的密集预测器的融合块的残差卷积单元。
[0020]图13是示例处理平台的框图,所述处理平台包括处理器电路模块,所述处理器电路模块被构造成执行图7

12的示例机器可读指令,以实现图1的密集预测器及其各个组件。
[0021]图14是图13的处理器电路模块的示例实现的框图。
[0022]图15是图13的处理器电路模块的另一个示例实现的框图。
[0023]附图不是按比例绘制。一般来说,相同附图标记在(一个或多个)附图和附随的书面描述中将通篇用来表示相同或相似部件。除非另加明确说明,否则本文中使用诸如“第一”、“第二”、“第三”等的描述符,而不是归于或者以其他方式指示优先级、物理顺序、列表中的排列和/或按照任何方式排序的任何含意,而是仅用作标签和/或任意名称来区分元件,以便于理解所公开的示例。在一些示例中,描述符“第一”可用来在详细描述中表示元件,而在权利要求书中可采用诸如“第二”或“第三”之类的不同描述符来表示所述相同元件。在这类实例中,应当理解,这类描述符只用于清楚地标识例如原本可能共用相同名称的那些元件。如本文所使用的短语“与
……
通信”(包括其变化)包含直接通信和/或通过一个或多个中间组件的间接通信,并且并不要求直接物理(例如有线)通信和/或恒定通信,而是还包括以周期间隔、调度的间隔、非周期间隔和/或一次性事件的选择性通信。如本文所使用的“处理器电路模块”被定义成包括:(i) 一个或多个专用电路,被构造成执行(一个或多个)特定操作,并且包括一个或多个基于半导体的逻辑装置(例如由一个或多个晶体管所实现的电硬件);和/或(ii) 一个或多个通用基于半导体的电路,被编程有指令,以执行特定操作,并且包括一个或多个基于半导体的逻辑装置(例如由一个或多个晶体管所实现的电硬件)。处理器电路模块的示例包括编程微处理器、可例示指令的现场可编程门阵列(FPGA)、中央处理器单元(CPU)、图形处理器单元(GPU)、数字信号处理器(DSP)、XPU或微控制器以及诸如专用集成电路(ASIC)之类的集成电路。例如,XPU可由异构计算系统来实现,所述异构计算系统包括多种类型的处理器电路模块(例如一个或多个FPGA、一个或多个CPU、一个或多个GPU、一个或多个DSP等和/或它们的组合)和(一个或多个)应用编程接口((一个或多个)API),所述API可将(一个或多个)计算任务指配给多个类型的处理电路模块中最适合执行所述(一个或多个)计算任务的无论哪一个(哪些)处理电路模块。
具体实施方式
[0024]密集预测(对图像的每一个像素预测/指配标签的任务)是通常使用卷积和子取样的某个组合所执行的计算机视觉技术的一方面。这些基本元件用来学习能够利用图像的空间上下文的图像的多尺度表示。这类密集预测技术的示例类别包括如下技术:1) 对于在不同级已被汇集的表示渐进地上取样,2) 使用扩大卷积以增加感受野(receptive field),以及3) 以多个分辨率来执行并行多尺度特征聚合,以增加感受野。
[0025]不幸的是,全卷积技术的编码器对输入图像渐进地下取样,以便以多个尺度来提
取特征。下取样的这个动作能够实现感受野的增加,低级特征到抽象高级特征中的编组,以及同时确保网络的存储器和计算要求保持为易处理。但是,下取样具有在密集预测任务中特别突出的明显缺点。特别是,密集预测中的下取样引起密集预测模型的更深级中的特征分辨率和粒度的损失,并且这些方面在下游解码器中难以恢复。缓解粒度中的这类损失的先前解决方案集中于解码器。
[0026]相比之下,本文所公开的方法、设备、系统和制品基于编码器

解码器设计/架构,所述设计/架构利用视觉变换器(ViT)作为编码器的基本计算构建块。由视觉变换器所提供的词袋表示被重组为各种分辨率下的类似图像的特征表示,并且所述特征表示使用卷积解码器被渐进地组合为最终密集预测。
[0027]进一步,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备,包括:编码器,包括:嵌入器,所述嵌入器将输入图像转换成多个标记,所述多个标记表示从所述输入图像所提取的特征,并且所述嵌入器采用可学习位置来嵌入所述多个标记;以及多个变换器,所述多个变换器配置在级序列中以将所述多个标记的每个与其他标记相关;解码器,包括:多个重组器,所述多个重组器与所述多个变换器的对应变换器关联,所述多个重组器的每个从所述多个变换器的所述对应变换器接收输出,并且将所述标记组装为特征表示;多个融合块,所述多个融合块组合所述特征表示以形成最终特征表示;以及输出头端,所述输出头端基于所述最终特征表示和输出任务来生成密集预测。2.如权利要求1所述的设备,其中,所述嵌入器生成特殊贴片独立标记,并且将所述特殊贴片独立标记加到所述多个标记。3.如权利要求1或权利要求2所述的设备,其中,在变换器级的集合的每级保持相同数量的标记。4.如权利要求1或权利要求2所述的设备,其中,所述嵌入器:将所述输入图像划分为相同像素大小的非重叠贴片;将所述贴片展平为向量;以及使用线性投影单独嵌入所述贴片,所述标记对应于所嵌入的贴片。5.如权利要求1或权利要求2所述的设备,其中,所述重组器包括:标记读取器,所述标记读取器读取所述多个标记;级联器,所述级联器对所述标记读取器的输出执行空间级联操作,以生成所述特征表示;以及再取样器,所述再取样器将所述特征表示缩放到除以标量的所述输入图像的标量高度以及除以相同标量的所述输入图像的宽度。6.如权利要求1或权利要求2所述的设备,其中,所述重组器:以更低分辨率将所述标记重组为来自所述变换器级的更深级的特征表示;以及以更高分辨率将所述标记组装为来自所述变换器级的早期级的特征表示。7.如权利要求1或权利要求2所述的设备,其中,所述重组器将每个标记放置到由从所述输入图像所提取的每个对应贴片所占据的位置中,所述标记在被放置到所述对应位置中时形成所述特征表示。8.一种设备,包括:存储器;至少一个处理器;以及存储在所述存储器上的指令,所述指令在被执行时使所述至少一个处理器:将输入图像转换成多个(N个)标记,所述N个标记的相应标记基于所述输入图像的相应非重叠贴片,所述N个标记包括位置信息,所述位置信息识别相应位置,在所述相应位置中所述相应非重叠贴片适合于所述输入图像内;在所述标记已经经过变换器级之后将所述N个标记重组为特征表示,由所述变换器级
的更深变换器级所输出的所述标记的标记以第一分辨率被组装,由所述变换器级的早期变换器级所输出的所述标记的标记以第二分辨率被组装,所述第一分辨率低于所述第二分辨率;使用残差网络的连续级渐进地融合所述特征表示,以及在所述残差网络的每级中通过二的因子对于由所述残差网络的相应级所输出的相应表示进行上取样;以及基于所融合的特征图来生成密集预测。9.如权利要求8所述的设备,其中,所述至少一个处理器进一步生成特殊贴片独立标记,并且将所述特殊标记级联到所述N个标记。10.如权利要求8或权利要求9所述的设备,其中,在所述变换器级的每级保持相同数量的标记。11.如权利要求8或权利要求9所述的设备,其中,所述至少一个处理器进一步:将所述输入图像划分为所述非重叠贴片,所述非重叠贴片具有相同数量的像素;将所述N个标记展平为向量;以及将线性投影应用于所述N个标记,以嵌入所述标记。12.如权利要求8或权利要求9所述的设备,其中,为了重组所述N个标记,所述至少一个处理器:读取所述N个标记;在空间上级联所述N个标记,以生成特征图;以及对所述特征图进行再取样,以生成所述输入图像的缩放的表示,所缩放的表示...

【专利技术属性】
技术研发人员:R
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1