一种基于Transformer的目标检测预训练方法技术

技术编号:46571862 阅读:2 留言:0更新日期:2025-10-10 21:17
本发明专利技术涉及自监督学习技术领域,具体是一种基于Transformer的目标检测预训练方法。本发明专利技术设计了CL‑MAE(Contrastive Learning‑Masked Autoencoder)自监督预训练方法,采用双分支架构处理原图像和增强图像,通过冻结原图分支参数、使用指数移动平均更新增强分支参数,并引入多视图对比学习,有效防止编码器"偷懒"问题——即依赖解码器完成重建任务。预训练完成后,将ViT(Vision Transformer)编码器权重迁移到基于PVT(Pyramid Vision Transformer)的目标检测网络中,配合FPN(Feature Pyramid Networks)特征融合和专门检测头,实现从自监督预训练到目标检测的转换。该方法解决了传统目标检测模型中依赖标注数据的问题,同时避免了掩码自编码器进行自监督预训练时的“偷懒”问题。相比无预训练模型,本方法取得了更好的目标检测精度和收敛速度。

【技术实现步骤摘要】

本专利技术涉及深度学习中自监督学习,具体是一种基于的目标检测预训练方法。


技术介绍

1、现今技术进步日新月异,深度学习正推动着计算机视觉、自然语言处理和语音识别等领域的技术创新,这些模型的显著成效普遍依赖于大量标注样本。以图像分类领域为例,随着深度学习在视觉任务中的广泛应用,高精度模型对大规模标注数据的依赖日益明显,尤其是在目标检测任务中,不仅需标注图像类别,还需精确定位目标位置。面对数据增长和多样化场景的挑战,传统监督学习方法面临巨大的人工成本和时间开销问题。因此,在缺乏标注数据的情况下获取有效的图像特征,成为当前亟待解决的关键问题。目前,自监督预训练方法在无标注数据目标检测中的相关研究受到众多学者关注。

2、自监督学习借助数据自身的结构挖掘监督线索,不需要预先进行人工标注,采用掩码方式的自编码器在无监督表征学习上表现良好,它采用随机遮挡图像大部分区域,然后对被遮挡部分进行重构的办法,即便不实施标注,也能获得良好的特征表达,这种特征表达可有效提高图像分类、目标检测和语义分割等下游任务的精度。虽然呈现出显著效果,但在自然图像微观结构特征的捕捉以本文档来自技高网...

【技术保护点】

1.一种基于的目标检测预训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于的目标检测预训练方法,其特征在于,所述步骤1的过程具体为:

3.根据权利要求1所述的基于的目标检测预训练方法,其特征在于,所述步骤2的过程具体为:

4.根据权利要求1所述的基于的目标检测预训练方法,其特征在于,所述步骤3的过程具体为:

5.根据权利要求1所述的基于的目标检测预训练方法,其特征在于,所述步骤4的过程具体为:

【技术特征摘要】

1.一种基于的目标检测预训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于的目标检测预训练方法,其特征在于,所述步骤1的过程具体为:

3.根据权利要求1所述的基于的目标检测预训练方法,其特征...

【专利技术属性】
技术研发人员:王硕杨范艺刘真杨昌松梁海丁勇王仕豪赵汝文
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1