以分辨率灵活的多轴注意力块为特征的机器学习模型制造技术

技术编号:42802173 阅读:27 留言:0更新日期:2024-09-24 20:47
提供了以分辨率灵活的多轴注意力块为特征的机器学习系统和模型。具体来说,本公开提供了基于多轴MLP的示例架构(其示例实现方式通常可称为MAXIM),该架构可充当用于图像处理任务的有效率且灵活的通用视觉主干。在一些实现方式中,MAXIM可以使用UNet形的分层结构,并且支持由空间门控MLP实现的长距离交互。具体地,MAXIM的一些示例实现方式可以包含两个基于MLP的构建块:多轴门控MLP,该多轴门控MLP允许局部视觉提示与全局视觉提示的有效率且可缩放的空间混合;和交叉门控块——交叉注意力的替代方案,该交叉门控块考虑了交叉特征相互调节。

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及机器学习。更具体来说,本公开涉及以分辨率灵活的多轴注意力块为特征的机器学习模型


技术介绍

1、机器学习领域已在与计算机视觉或其他形式的图像处理相关的任务上取得了显著进步。例如,transformer(一种类型的神经网络)和多层感知器(mlp)模型的最新进展已为计算机视觉任务提供了新的网络架构设计。尽管这些模型架构已被证明在诸如图像辨识的许多视觉任务中是有效的,但使这些模型架构适合于低层次视觉(low-level vision)仍然存在挑战。具体来说,对支持高分辨率图像的不灵活性和局部注意力的限制性可能是在其中输入影像的分辨率未知和/或相对大的图像还原或其他图像处理任务中使用transformer和mlp的主要瓶颈。

2、更具体来说,诸如还原和增强的示例图像处理任务是旨在从劣化的输入产生期望的输出的重要计算机视觉问题。各种类型的劣化可需要不同的图像增强处理,诸如去噪、去模糊、超分辨率、去雾、低光增强等。鉴于精选的大规模训练数据集的可用性提高,基于精心设计的卷积神经网络(cnn)的最新高性能方法已在许多任务上展现出最先进(sota本文档来自技高网...

【技术保护点】

1.一种用于分辨率灵活的图像处理的计算系统,所述计算系统包括:

2.如权利要求1所述的计算系统,其中所述输入张量具有高度、宽度和通道深度,并且其中所述第一划分操作包括网格划分操作,所述网格划分操作将所述输入张量的所述高度和所述宽度划分为具有所述预定义数量的所述多个第一特征集的网格。

3.如任一项前述权利要求所述的计算系统,其中所述第二划分操作包括块划分操作,所述块划分操作将所述输入张量的所述第二部分划分为所述多个第二特征集,使得所述多个第二特征集中的每个第二特征集具有预定义的高度和宽度。

4.如权利要求3所述的计算系统,其中所述多个第一特征集的所述预定...

【技术特征摘要】
【国外来华专利技术】

1.一种用于分辨率灵活的图像处理的计算系统,所述计算系统包括:

2.如权利要求1所述的计算系统,其中所述输入张量具有高度、宽度和通道深度,并且其中所述第一划分操作包括网格划分操作,所述网格划分操作将所述输入张量的所述高度和所述宽度划分为具有所述预定义数量的所述多个第一特征集的网格。

3.如任一项前述权利要求所述的计算系统,其中所述第二划分操作包括块划分操作,所述块划分操作将所述输入张量的所述第二部分划分为所述多个第二特征集,使得所述多个第二特征集中的每个第二特征集具有预定义的高度和宽度。

4.如权利要求3所述的计算系统,其中所述多个第一特征集的所述预定义数量等于所述多个第二特征集中的每个第二特征集的所述预定义的高度和宽度的乘积。

5.如任一项前述权利要求所述的计算系统,其中:

6.如权利要求5所述的计算系统,其中所述门控多层感知器块为输入特征值生成一个或多个门控权重,并且其中所述门控多层感知器块应用所述一个或多个门控权重来对所述输入特征值进行门控。

7.如权利要求5所述的计算系统,其中所述门控多层感知器块为输入特征值生成一个或多个门控权重,并且其中所述门控多层感知器块应用所述一个或多个门控权重来对与不同的特征流相关联的其他特征值进行门控。

8.如权利要求1至4中任一项所述的计算系统,其中:

9.如任一项前述权利要求所述的计算系统,其中所述输入张量的所述第一部分包括所述输入张量的多个深度通道的第一半,并且所述输入张量的所述第二部分包括所述输入张量的所述多个深度通道的第二半。

10.如任一项前述权利要求所述的计算系统,其中:<...

【专利技术属性】
技术研发人员:李寅骁Z·凃H·塔勒比张晗杨峰P·米兰法尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1