【技术实现步骤摘要】
本申请涉及计算机视觉,特别涉及一种基于端侧视觉基础模型的目标检测方法及装置。
技术介绍
1、随着alexnet、vgg、googlenet以及resnet等卷积神经网络模型的提出,卷积神经网络结构逐渐成为视觉领域中模型架构的主流范式。视觉图像中天然存在局部性和平移不变性的性质,卷积神经网络结构中的卷积算子和池化算子能很好地引入这些归纳偏置,使得模型具有视觉特征的先验信息,然而在实际部署中,卷积网络面临着占用资源大,推理速度慢等问题。
2、目前,一些高效的卷积神经网络结构,如repvgg、mobilenet系列、shufflenet系列以及tresnet等,可在更快的推理速度下达到更高的图像识别精度,虽然卷积神经网络结构在视觉领域上能达到很好的效果,但依然存在着模型识别图像更依赖纹理特征,感受野存在局限等问题。与此相对,vision transformer则抛弃了局部性和平移不变性的归纳偏置,通过全局序列建模对视觉图像引入全局感受野,识别图像更依赖形状特征,且在大规模数据集上性能超过卷积神经网络结构;此外,卷积神经网络结构可与
...【技术保护点】
1.一种基于端侧视觉基础模型的目标检测方法,应用于离线训练阶段,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述通过预设的RepViT块构建模型降采样层,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过预设的RepViT块构建模型降采样层,还包括:
4.根据权利要求1所述的方法,其特征在于,在基于所述RepViT块、所述降采样层和预设的所述模型分类头,并结合预设的所述通道注意力机制和所述网络深度比例,构建所述视觉基础模型之前,还包括:
5.一种基于端侧视觉基础模型的目标检测方法,应用于
...【技术特征摘要】
1.一种基于端侧视觉基础模型的目标检测方法,应用于离线训练阶段,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述通过预设的repvit块构建模型降采样层,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过预设的repvit块构建模型降采样层,还包括:
4.根据权利要求1所述的方法,其特征在于,在基于所述repvit块、所述降采样层和预设的所述模型分类头,并结合预设的所述通道注意力机制和所述网络深度比例,构建所述视觉基础模型之前,还包括:
5.一种基于端侧视觉基础模型的目标检测方法,应用于在线检测阶段,其特征在于,包括以下步骤:
6.一种基于端侧视觉基础模型的目标检测装置,应用于离线训练阶段,其特征在于,包括:
7...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。