用于对象识别的方法和设备技术

技术编号:38256078 阅读:10 留言:0更新日期:2023-07-27 10:19
提供了一种用于对象识别的方法和设备。一种处理器实现的方法包括:从输入图像提取包括局部特征表示的特征图,通过融合局部特征表示来生成与输入图像对应的全局特征表示,以及基于局部特征表示和全局特征表示对输入图像执行识别任务。行识别任务。行识别任务。

【技术实现步骤摘要】
用于对象识别的方法和设备
[0001]本申请要求于2022年1月10日在韩国知识产权局提交的第10

2022

0003434号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。


[0002]下面的描述涉及用于对象识别的方法和设备。

技术介绍

[0003]技术自动化或识别处理已经通过由处理器将神经网络实现为特定计算结构来执行,该特定计算结构用于在大量的训练之后提供输入与输出之间的计算的直觉的映射。被训练为生成这样的映射的能力可被称为神经网络的学习能力。此外,通过专门训练而被训练和专门化的神经网络具有例如针对未训练的输入模式提供相对准确的输出的泛化能力。

技术实现思路

[0004]在一个总体方面,一种处理器实现的方法包括:从输入图像提取包括局部特征表示的特征图;通过融合局部特征表示来生成与输入图像对应的全局特征表示;以及基于局部特征表示和全局特征表示对输入图像执行识别任务。
[0005]生成全局特征表示的步骤可包括:融合与局部特征表示对应的池化结果。
[0006]所述池化可包括全局平均池化。
[0007]确定全局特征表示的步骤可包括:使用与识别任务相关联地预先训练的查询数据来执行注意力机制。
[0008]通过执行注意力机制来确定全局特征表示的步骤可包括:确定与局部特征表示对应的键数据和值数据;基于键数据与查询数据之间的相似度来确定值数据的加权和;以及基于加权和来确定全局特征表示。
[0009]执行识别任务的步骤可包括:使用第一识别模型估计与局部特征表示对应的第一识别结果,以及使用第二识别模型估计与全局特征表示对应的第二识别结果。
[0010]第一识别模型可包括:对象检测模型,被配置为:从局部特征表示估计检测结果,并且第二识别模型可包括:分类模型,被配置为:从全局特征表示估计分类结果。
[0011]检测结果可包括:边界框信息、对象信息或类别信息中的一个或多个,并且分类结果可包括:多类别分类信息、上下文分类信息或对象计数信息中的一个或多个。
[0012]所述方法还可包括:训练第一模型和训练第二模型,其中,训练第一识别模型的步骤影响训练第二识别模型的步骤,并且训练第二识别模型的步骤可影响训练第一识别模型的步骤。
[0013]训练第一模型的步骤和训练第二模型的步骤可包括:使用训练中的特征提取模型或训练后的特征提取模型从训练输入图像提取包括训练中的局部特征表示的训练特征图;使用训练中的特征融合模型或训练后的融合模型,通过融合训练的局部特征表示来确定与训练的输入图像对应的训练的全局特征表示;使用训练中的第一识别模型来估计与训练的
局部特征表示对应的训练的第一识别结果;使用训练中的第二识别模型来估计与训练的全局特征表示对应的训练的第二识别结果;以及通过基于训练的第一识别结果和训练的第二识别结果将训练中的第一识别模型和训练中的第二识别模型一起训练来生成第一模型和第二模型。
[0014]执行识别任务的步骤还可包括:通过融合第一识别结果和第二识别结果来确定由识别任务识别的任务结果。
[0015]识别任务可对应于多个任务候选中的一个任务候选,任务候选分别具有相关联的预先训练的查询数据项;并且确定全局特征表示的步骤还可包括:从预先训练的查询数据项之中选择与识别任务相关联的查询数据项;以及通过基于选择的查询数据项执行注意力机制来确定全局特征表示。
[0016]所述方法还可包括:使用相机拍摄输入图像。
[0017]在一个总体方面,一种处理器实现的方法包括:使用特征提取模型从输入图像提取包括局部特征表示的特征图;使用特征融合模型通过融合局部特征表示来确定与输入图像对应的全局特征表示;使用第一识别模型来估计与局部特征表示对应的第一识别结果;使用第二识别模型来估计与全局特征表示对应的第二识别结果;以及基于第一识别结果和第二识别结果,训练特征提取模型、特征融合模型、第一识别模型或第二识别模型中的一个或多个。
[0018]所述方法还可包括:基于第一识别结果和第二识别结果确定训练损失,其中,训练的步骤基于训练损失。
[0019]第一识别模型和第二识别模型可被训练为集成模型,使得每个识别模型影响另一个识别模型的训练。
[0020]第二识别模型可包括:分别与任务候选对应的多个分类模型;其中,特征融合模型可被配置为:通过基于与任务候选之中的当前任务候选对应的查询数据执行注意力机制来确定全局特征表示;并且确定训练损失的步骤可包括:通过应用与任务候选之中的当前任务候选对应的分类模型的分类结果作为第二识别结果来确定训练损失。
[0021]训练第一识别模型可影响训练第二识别模型,并且训练第二识别模型可影响训练第一识别模型。
[0022]在一个总体方面,一种电子设备包括:处理器,被配置为:从输入图像提取包括相应的局部特征表示的特征图,通过融合局部特征表示来确定与输入图像对应的全局特征表示,并且基于局部特征表示和全局特征表示对输入图像执行识别任务。
[0023]所述电子设备还可包括:相机,被配置为生成输入图像。
[0024]处理器还可被配置为:通过融合与局部特征表示对应的池化结果来确定全局特征表示。
[0025]处理器还可被配置为:通过使用响应于识别任务而预先训练的查询数据执行注意力机制来确定全局特征表示。
[0026]注意力机制可包括视觉变换器模型,视觉变换器模型基于查询数据的键和值之间的相似度来执行融合。
[0027]处理器还可被配置为:使用第一识别模型估计与局部特征表示对应的第一识别结果,并且使用第二识别模型估计与全局特征表示对应的第二识别结果。
[0028]处理器还可被配置为:基于识别任务在第一识别模型与第二识别模型之间进行选择。
[0029]第一识别模型可包括:对象检测模型,被配置为:估计与局部特征表示中的每个对应的检测结果,并且第二识别模型可包括:分类模型,被配置为:估计与全局特征表示对应的分类结果。
[0030]处理器还可被配置为:通过融合第一识别结果和第二识别结果来确定识别任务的任务结果。
[0031]在一个总体方面,一种方法包括:从输入图像生成特征图,其中,生成特征图的步骤由神经网络的一个或多个层执行;根据特征图形成特征金字塔;将特征金字塔提供给第一模型,第一模型基于特征金字塔输出对象识别预测;从特征金字塔提取图像的全局特征;以及将全局特征提供给神经网络的另外一个或多个层,以基于全局特征生成场景识别预测。
[0032]神经网络可包括卷积神经网络。
[0033]提取全局特征的步骤可包括:特征图的全局平均池化或执行特征图的基于注意力的视觉变换。
[0034]场景识别预测可包括:场景分类。
[0035]所述方法还可包括:从对象识别预测生成场景结果;以及通过将场景结果与场景识别预测融合来生成最终的场景预测。
[0036]神经网络可包括一个或多个附加层作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理器实现的用于对象识别的方法,包括:从输入图像提取包括局部特征表示的特征图;通过融合局部特征表示来生成与输入图像对应的全局特征表示;以及基于局部特征表示和全局特征表示对输入图像执行识别任务。2.根据权利要求1所述的方法,其中,生成全局特征表示的步骤包括:融合与局部特征表示对应的池化结果。3.根据权利要求2所述的方法,其中,所述池化结果包括基于全局平均池化获得的池化结果。4.根据权利要求1所述的方法,其中,生成全局特征表示的步骤包括:使用与识别任务相关联地预先训练的查询数据来执行注意力机制。5.根据权利要求4所述的方法,其中,执行注意力机制的步骤包括:确定与局部特征表示对应的键数据和值数据;基于键数据与查询数据之间的相似度来确定值数据的加权和;以及基于加权和来确定全局特征表示。6.根据权利要求1至权利要求5中的任意一项所述的方法,其中,执行识别任务的步骤包括:使用第一识别模型估计与局部特征表示对应的第一识别结果,以及使用第二识别模型估计与全局特征表示对应的第二识别结果。7.根据权利要求6所述的方法,其中,第一识别模型包括:对象检测模型,被配置为:从局部特征表示估计检测结果,并且第二识别模型包括:分类模型,被配置为:从全局特征表示估计分类结果。8.根据权利要求7所述的方法,其中,检测结果包括:边界框信息、对象信息和类别信息中的一个或多个,并且其中,分类结果包括:多类别分类信息、上下文分类信息和对象计数信息中的一个或多个。9.根据权利要求7所述的方法,还包括:训练第一识别模型和训练第二识别模型,其中,训练第一识别模型的步骤影响训练第二识别模型的步骤,并且训练第二识别模型的步骤影响训练第一识别模型的步骤。10.根据权利要求9所述的方法,其中,训练第一识别模型的步骤和训练第二识别模型的步骤包括:使用训练中的特征提取模型或训练后的特征提取模型从训练输入图像提取包括训练中的局部特征表示的训练特征图;使用训练中的特征融合模型或训练后的融合模型,通过融合训练中的局部特征表示来确定与训练输入图像对应的训练全局特征表示;使用训练中的第一识别模型来估计与训练中的局部特征表示对应的训练的第一识别结果;使用训练中的第二识别模型来估计与训练全局特征表示对应的训练的第二识别结果;以及
通过基于训练的第一识别结果和训练的第二识别结果将训练中的第一识别模型和训练中的第二识别模型一起训练来生成第一识别模型和第二模识别型。11.根据权利要求6所述的方法,其中,执行识别任务的步骤还包括:通过融合第一识别结果和第二识别结果来确定由识别任务识别的任务结果。12.根据权利要求1所述的方法,其中,识别任务对应于:多个任务候选中的一个任务候选,所述多个任务候选分别具有相关联的预先训练的查询数据项;并且确定全局特征表示的步骤包括:从预先训练的查询数据项之中选择与识别任务相关联的查询数据项;以及通过基于选择的查询数据项执行注意力机制来确定全局特征表示。13.根据权利要求1所述的方法,还包括:使用相机拍摄输入图像。14.一种处理器实现的训练用于对象识别的模型的方法,包括:使用特征提取模型从输入图像提取包括局部特征表示的特征图;使用特征融合模型通过融合局部特征表示来确定与输入图像对应的全局特征表示;使用第一识别模型来估计与局部特征表示对应的第一识别结果;使用第二识别模型来估计与全局特征表示对应的第二识别结果;以及基于第一识别结果和第二识别结果,训练特征提取模型、特征融合模型、第一识别模型和第二识别模型中的一个或多个。15.根据权利要求14所述的方法,还包括:基于...

【专利技术属性】
技术研发人员:金仁洙金基京韩承周白智原韩在濬
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1