一种图像识别系统及其训练方法、图像识别方法技术方案

技术编号：44935538 阅读：12 留言：0更新日期：2025-04-12 01:13

本发明专利技术属于图像识别相关技术领域，其公开了一种图像识别系统及其训练方法、图像识别方法，该系统中：粗粒度场景感知模块识别出与输入图像最相关的场景；细粒度目标感知模块基于粗粒度场景感知模块所提供的信息计算各特征点与最相关场景下各目标的相似度得分；编码模块具有多分支自注意力计算单元，多分支注意力计算单元基于相似度得分将显著性特征点加入同一个自注意力分支，形成多分支自注意力图像编码，着重对所加入的显著性特征进行编码计算；解码模块对编码特征进行解码，识别输入图像中的目标。通过以上系统，可以降低编码器的计算复杂度，提高重点目标的特征提取能力，减少不同类别目标和图像背景区域的干扰，加快图像处理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像识别相关，更具体地，涉及一种图像识别系统及其训练方法、图像识别方法。

技术介绍

1、目标检测是计算机视觉最基础且最核心的任务之一，在自动驾驶、医学成像和无人机检测等实际场景中有着广泛的应用。现代目标检测方法主要可以分为基于cnn的架构和基于transformer的架构。近年来，基于transformer的端到端检测器(detr)带来了显著的性能提升，该架构遵循两阶段检测步骤，通过resnet等模型提取图像特征后，在编码器中执行密集的自注意力图像编码，并在解码器中使用查询向量进行交叉注意力解码。

2、尤其在编码阶段，编码器通过自注意力编码图像特征，处理高分辨率图像或利用多尺度特征时，计算复杂度高，此外，图像中大量的背景信息会导致编码冗余，进一步增加了编码的复杂度。

3、因此，如何降低编码阶段的计算复杂度，提高图像处理速度，是目前亟待解决的技术问题。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本专利技术提供了一种图像识别系统及其训练方法、图像...

【技术保护点】

1.一种图像识别系统，其特征在于，包括：

2.如权利要求1所述的图像识别系统，其特征在于，所述Transformer解码模块从所述Transformer编码模块的输出结果中获取一系列先验特征点并构建每个先验特征点对应的内容查询向量和位置查询向量，基于内容查询向量解码目标类别，基于位置查询向量解码目标位置；

3.如权利要求1所述的图像识别系统，其特征在于，所述场景语义生成单元和所述目标语义生成单元均为可训练的多层感知机；

4.如权利要求3所述的图像识别系统，其特征在于，所述场景类别文本嵌入层和所述目标类别文本嵌入层均选用CLIP模型中

【技术特征摘要】

1.一种图像识别系统，其特征在于，包括：

2.如权利要求1所述的图像识别系统，其特征在于，所述transformer解码模块从所述transformer编码模块的输出结果中获取一系列先验特征点并构建每个先验特征点对应的内容查询向量和位置查询向量，基于内容查询向量解码目标类别，基于位置查询向量解码目标位置；

3.如权利要求1所述的图像识别系统，其特征在于，所述场景语义生成单元和所述目标语义生成单元均为可训练的多层感知机；

4.如权利要求3所述的图像识别系统，其特征在于，所述场景类别文本嵌入层和所述目标类别文本嵌入层均选用clip模型中的文本编码器。

5.如权利要求1所述的图像识别系统，其特征在于，所述特征提取模块选用clip模型中的图像编码器。

6.一种图像识别系统的训练方法，其特征在于，包括：

7.如权利要求6所述的训练方法，其特征在于，所述图像识别系统中的transformer解码模块从所述t...

【专利技术属性】
技术研发人员：李国徽，袁凌，赵晓童，潘鹏，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人