用于使用人工智能模型对图像进行分类的方法和装置制造方法及图纸

技术编号:39592875 阅读:21 留言:0更新日期:2023-12-03 19:47
一种用于执行图像处理的装置可以包括至少一个处理器,所述至少一个处理器被配置为:将图像输入到视觉转换器,所述视觉转换器包括多个编码器,所述多个编码器对应于至少一个固定编码器和多个自适应编码器;经由所述至少一个固定编码器处理所述图像以获得图像表示;通过将所述图像表示输入到策略网络来确定所述多个自适应编码器的要丢弃的一个或多个层,所述策略网络被配置为确定所述多个自适应编码器的层丢弃动作;以及使用所述多个自适应编码器中除所丢弃的一个或多个层之外的剩余层来获得所述输入图像的类别

【技术实现步骤摘要】
【国外来华专利技术】用于使用人工智能模型对图像进行分类的方法和装置


[0001]本公开涉及一种用于使用人工智能(AI)模型来识别图像类别的方法和装置,特别是用于经由视觉转换器来预测图像类别的方法和装置,该视觉转换器使用根据输入图像的特性而改变的可变数量的神经网络层。

技术介绍

[0002]视觉转换器已经在许多具有挑战性的计算机视觉基准(包括图像识别和对象检测)上显示出有前景的性能。因此,视觉转换器被认为是可替代现有视觉模型的新模型类型。
[0003]视觉转换器可以在具有挑战性的计算机视觉基准上优于卷积神经网络。然而,视觉转换器会包含大量参数,以高延迟运行,并且需要每秒大量浮点运算(FLOP)。因此,将视觉转换器部署到移动设备可能是复杂且昂贵的。为了简化视觉转换器的部署,需要额外的方法来提高视觉转换器的效率。

技术实现思路

[0004]技术解决方案
[0005]实施例提供了一种用于使用视觉转换器的自适应数量的采样的多头自注意力(MSA)层和多层感知器(MLP)层来处理输入图像的方法和系统,其中采样的MSA层和MLP层的数量根据输入图像本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于执行图像处理的装置,所述装置包括:存储器,存储指令;以及至少一个处理器,被配置为执行所述指令以进行以下操作:将图像输入到包括多个编码器的视觉转换器(120),其中,所述多个编码器对应于至少一个固定编码器(120A)和多个自适应编码器(120B);经由所述至少一个固定编码器(120A)处理所述图像以获得图像表示;通过将所述图像表示输入到策略网络(130)来确定所述多个自适应编码器(120B)中要丢弃的一个或多个层,所述策略网络(130)被配置为确定所述多个自适应编码器(120B)的层丢弃动作;以及使用所述多个自适应编码器(120B)中除所丢弃的一个或多个层之外的剩余层来获得所述输入图像的类别。2.根据权利要求1所述的装置,其中,所述策略网络(130)包括第一策略网络(130A)和第二策略网络(130B),所述第一策略网络(130A)被配置为确定是否丢弃一个或多个多头自注意力MSA层,所述第二策略网络(130B)被配置为确定是否丢弃一个或多个多层感知器MLP层。3.根据权利要求1至2中任一项所述的装置,其中,所述第一策略网络(130A)被配置为接收从所述视觉转换器(120)的所述至少一个固定编码器(120A)输出的所述图像表示作为输入,并且输出所述多个自适应编码器(120B)的每个MSA层的层丢弃动作。4.根据权利要求1至3中任一项所述的装置,其中,所述第二策略网络(130B)还被配置为接收所述图像表示和每个MSA层的层丢弃动作作为输入,并且输出所述多个自适应编码器(120B)的每个MLP层的层丢弃动作。5.根据权利要求1至4中任一项所述的装置,其中,所述第二策略网络(130B)包括密集层,所述密集层被配置为接收所述图像表示和每个MSA层的层丢弃动作的级联作为输入。6.根据权利要求1至5中任一项所述的装置,其中,所述策略网络(130)被配置为接收基于所丢弃的一个或多个层的数量和所述视觉转换器(120)的图像分类预测精度计算的奖励。7.根据权利要求1至6中任一项所述的装置,其中,所述至少一个处理器被配置为执行所述指令以进行以下操作:使用奖励函数来计算所述奖励,所述奖励函数随着所丢弃的一个或多个层的数量增加并且所述图像分类预测精度增大而增大所述奖励。8.一种执行图像处理的方法,所述方法由至少一个处理器执行,并且所述方法包括:将图像输入到包括多个编码器的视觉转换器(120),其中...

【专利技术属性】
技术研发人员:布拉克
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1