当前位置: 首页 > 专利查询>清华大学专利>正文

基于端侧视觉基础模型的目标检测方法及装置制造方法及图纸

技术编号:41878327 阅读:16 留言:0更新日期:2024-07-02 00:31
本申请涉及一种基于端侧视觉基础模型的目标检测方法及装置,其中,方法包括:通过预设的RepViT块构建模型降采样层;基于RepViT块、降采样层和预设的模型分类头,并结合预设的通道注意力机制和网络深度比例,构建视觉基础模型;建立目标检测训练数据集,并利用目标检测训练数据集训练视觉基础模型,生成目标检测模型,以根据目标检测模型检测待测目标的类型。由此,解决了现有的视觉模型的推理速度较慢,且模型加速优化无法反应模型实际推理速度的变化,难以设计面向端侧推理速度优化的高效模型结构等问题。

【技术实现步骤摘要】

本申请涉及计算机视觉,特别涉及一种基于端侧视觉基础模型的目标检测方法及装置


技术介绍

1、随着alexnet、vgg、googlenet以及resnet等卷积神经网络模型的提出,卷积神经网络结构逐渐成为视觉领域中模型架构的主流范式。视觉图像中天然存在局部性和平移不变性的性质,卷积神经网络结构中的卷积算子和池化算子能很好地引入这些归纳偏置,使得模型具有视觉特征的先验信息,然而在实际部署中,卷积网络面临着占用资源大,推理速度慢等问题。

2、目前,一些高效的卷积神经网络结构,如repvgg、mobilenet系列、shufflenet系列以及tresnet等,可在更快的推理速度下达到更高的图像识别精度,虽然卷积神经网络结构在视觉领域上能达到很好的效果,但依然存在着模型识别图像更依赖纹理特征,感受野存在局限等问题。与此相对,vision transformer则抛弃了局部性和平移不变性的归纳偏置,通过全局序列建模对视觉图像引入全局感受野,识别图像更依赖形状特征,且在大规模数据集上性能超过卷积神经网络结构;此外,卷积神经网络结构可与vision tra本文档来自技高网...

【技术保护点】

1.一种基于端侧视觉基础模型的目标检测方法,应用于离线训练阶段,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述通过预设的RepViT块构建模型降采样层,包括:

3.根据权利要求2所述的方法,其特征在于,所述通过预设的RepViT块构建模型降采样层,还包括:

4.根据权利要求1所述的方法,其特征在于,在基于所述RepViT块、所述降采样层和预设的所述模型分类头,并结合预设的所述通道注意力机制和所述网络深度比例,构建所述视觉基础模型之前,还包括:

5.一种基于端侧视觉基础模型的目标检测方法,应用于在线检测阶段,其特征...

【技术特征摘要】

1.一种基于端侧视觉基础模型的目标检测方法,应用于离线训练阶段,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述通过预设的repvit块构建模型降采样层,包括:

3.根据权利要求2所述的方法,其特征在于,所述通过预设的repvit块构建模型降采样层,还包括:

4.根据权利要求1所述的方法,其特征在于,在基于所述repvit块、所述降采样层和预设的所述模型分类头,并结合预设的所述通道注意力机制和所述网络深度比例,构建所述视觉基础模型之前,还包括:

5.一种基于端侧视觉基础模型的目标检测方法,应用于在线检测阶段,其特征在于,包括以下步骤:

6.一种基于端侧视觉基础模型的目标检测装置,应用于离线训练阶段,其特征在于,包括:

7...

【专利技术属性】
技术研发人员:丁贵广王澳陈辉
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1