【技术实现步骤摘要】
本专利技术属于图像识别相关,更具体地,涉及一种图像识别系统及其训练方法、图像识别方法。
技术介绍
1、目标检测是计算机视觉最基础且最核心的任务之一,在自动驾驶、医学成像和无人机检测等实际场景中有着广泛的应用。现代目标检测方法主要可以分为基于cnn的架构和基于transformer的架构。近年来,基于transformer的端到端检测器(detr)带来了显著的性能提升,该架构遵循两阶段检测步骤,通过resnet等模型提取图像特征后,在编码器中执行密集的自注意力图像编码,并在解码器中使用查询向量进行交叉注意力解码。
2、尤其在编码阶段,编码器通过自注意力编码图像特征,处理高分辨率图像或利用多尺度特征时,计算复杂度高,此外,图像中大量的背景信息会导致编码冗余,进一步增加了编码的复杂度。
3、因此,如何降低编码阶段的计算复杂度,提高图像处理速度,是目前亟待解决的技术问题。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种图像识别系统及其训练方法、图像
...【技术保护点】
1.一种图像识别系统,其特征在于,包括:
2.如权利要求1所述的图像识别系统,其特征在于,所述Transformer解码模块从所述Transformer编码模块的输出结果中获取一系列先验特征点并构建每个先验特征点对应的内容查询向量和位置查询向量,基于内容查询向量解码目标类别,基于位置查询向量解码目标位置;
3.如权利要求1所述的图像识别系统,其特征在于,所述场景语义生成单元和所述目标语义生成单元均为可训练的多层感知机;
4.如权利要求3所述的图像识别系统,其特征在于,所述场景类别文本嵌入层和所述目标类别文本嵌入层均选用CLIP模型中
...【技术特征摘要】
1.一种图像识别系统,其特征在于,包括:
2.如权利要求1所述的图像识别系统,其特征在于,所述transformer解码模块从所述transformer编码模块的输出结果中获取一系列先验特征点并构建每个先验特征点对应的内容查询向量和位置查询向量,基于内容查询向量解码目标类别,基于位置查询向量解码目标位置;
3.如权利要求1所述的图像识别系统,其特征在于,所述场景语义生成单元和所述目标语义生成单元均为可训练的多层感知机;
4.如权利要求3所述的图像识别系统,其特征在于,所述场景类别文本嵌入层和所述目标类别文本嵌入层均选用clip模型中的文本编码器。
5.如权利要求1所述的图像识别系统,其特征在于,所述特征提取模块选用clip模型中的图像编码器。
6.一种图像识别系统的训练方法,其特征在于,包括:
7.如权利要求6所述的训练方法,其特征在于,所述图像识别系统中的transformer解码模块从所述t...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。