基于预训练跨模态检索的小样本多要素场景图像识别方法技术

技术编号：40271938 阅读：12 留言：0更新日期：2024-02-02 22:58

本发明专利技术公开了一种基于预训练跨模态检索的小样本多要素场景图像识别方法，其步骤包括：1)建立图像数据库，包括多个通用场景类别的图像和若干目标场景类别的图像，每一场景类别包括多个图像，每一图像设置对应的场景类别标签；2)利用场景识别模型提取图像数据库中每一场景类别图像的特征，得到每一场景类别对应的特征数据库；根据特征数据库中同一图像的特征生成一特征向量；3)对于一待类别识别的图像A，利用场景识别模型提取该图像A的特征并生成一特征向量；4)场景识别模型将该图像A的特征向量分别与各所述特征数据库中的特征向量进行相似度计算；将相似度最高的特征向量对应的图像的场景类别作为该图像A的场景类别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，涉及一种场景识别方法，尤其涉及一种基于预训练跨模态检索的小样本多要素场景图像识别方法。

技术介绍

1、场景识别是将图像分类为预定义的场景类别之一。往往根据图像的环境内容、物体及其布局进行分类，如厨房、森林和客厅等。可以帮助机器理解图片中周围的环境，有助于机器对过去和未来事情的理解，广泛应用于多个科技领域，如智能机器人、智能驾驶和智能视频监控等。现有的场景识别技术常采用端到端的深度学习框架，直接输出图片的各个场景预测概率值，相关改进往往是针对图像特征进行。

2、基于全局cnn特征的方法是直接根据整个场景图像来预测场景类别的。通常，全局cnn特征是通过cnn模型从输入图像中提取得到的,该模型首先在大规模数据集上预先训练(参考文献deng j,dong w,socher r,et al.imagenet:a large-scale hierarchicalimage database[c]//2009ieee conference on computer vision and patternrecognition.leee,2009:248-255；zhou b,lapedriza a,xiao j,et al.learning deepfeatures for scene recognition using places database[j].advances in neuralinformation processing systems,2014,27:1-9；zhou b,lapedriza

3、科研人员发现，不同层的特征是互补的。低层特征通常捕捉小物体，而高层特征捕捉大物体(参考wu r,wang b,wang w,et al.harvesting discriminative meta objectswith deep cnn features for scene classification[c]//proceedings of the ieeeinternational conference on computer vision.2015:1287-1295)。虽然使用来自不同层的所有特征似乎可以改善最终的网络性能，但也会导致网络过拟合，从而损害性能。所以很多方法只从某些层提取特征。例如xie等人构建了两种基于字典的表示法，通过cfv和mlr来对辅助场景图像分类(参考xie g s,zhang x y,yan s,et al.hybrid cnn anddictionary-based models for scene recognition and domain adaptation[j].ieeetransactions on circuits and systems for video technology,2015,27(6):1263-1274)。tang等人自下而上将googlenet的图层分为三个部分，并提取每个部分的最终特征图。liu等人分别从resnet中每个残差块中提取特征图。

4、仅使用单一且紧凑的特征表征来描述复杂的场景是一项艰巨的任务。科研人员发现，根据不同数据集训练的网络生成的特征通常是互补的。herranz等人发现了以物体为中心的cnn和以场景为中心的cnn的最佳比例响应。这一发现被广泛应用，例如wang等人外使用以物体为中心的cnn来携带图像中描绘的物体的信息，而以场景为中心的cnn用于捕捉全局场景信息。按照这种方式，wang等人设计了patchnet,这是一种弱监督学习方法，它使用图像级监督信息作为有效提取块级特征的监督信号。为了提高识别性能，scene-patchnet和object-patchnet共同用于提取每个图像块的特征。

5、尽管场景识别技术已发展几十年，但针对类别快速多变、特殊地点(如固定拍摄区域、同一地点的不同拍摄角度、布局不变等)的视频图片场景，大多数方法仍不能满足需求：

6、1、现有的场景识别模型在训练时，是采用封闭式的标签集进行训练的，其只能识别标签集内的场景，不支持新出现类别的场景识别。

7、2、现有的场景识别模型的可解释性较低。由于先前模型多采用端到端的深度学习模型，仅输出各个场景的预测概率值本文档来自技高网...

【技术保护点】

1.一种基于预训练跨模态检索的小样本多要素场景图像识别方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，为每一场景类别设定若干与该场景类别的特点相关的场景特点关键词和场景特点物体；所述场景识别模型包括场景文本识别模型和场景物体识别模型；所述场景文本识别模型包括文本检测模型和文字识别模型，所述文本检测模型从图像i中检测出的文字后，与该图像i对应的场景类别的场景特点关键词进行匹配，将检测出的匹配文字作为图像i的文本特征；所述场景物体识别模型从图像i中检测出候选物体后，与该图像i对应的场景类别的场景特点物体进行匹配，提取检测出的匹配物体的特征作为图像i的物体特征。

3.根据权利要求1所述的方法，其特征在于，对于新增的场景类别，获取该新增的场景类别的若干图像加入到所述图像数据库，并利用场景识别模型提取对应图像的特征生成特征向量加入到该新增的场景类别的特征数据库中。

4.根据权利要求1或2或3所述的方法，其特征在于，利用PP-SSLD精馏法对PP-LCNet模型进行蒸馏处理得到所述场景识别模型；对所述场景识别模型提取的特征使用arcmargi

5.根据权利要求1或2或3所述的方法，其特征在于，采用IVF、HNSW32或Flat算法从各所述特征数据库中提取特征向量与该图像A的特征向量进行相似度计算。

6.根据权利要求1或2或3所述的方法，其特征在于，所述场景识别模型为预训练后的视觉骨干网络。

7.根据权利要求1或2或3所述的方法，其特征在于，所述目标场景类别图像为具有目标场景特点的图片。

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

...

【技术特征摘要】

1.一种基于预训练跨模态检索的小样本多要素场景图像识别方法，其步骤包括：

4.根据权利要求1或2或3所述的方法，其特征在于，利用pp-ssld精馏法对pp-lcnet模型...

【专利技术属性】
技术研发人员：于静，熊刚，屈详颜，李镇，苟高鹏，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人