基于多模态表征的细粒度图像分类方法技术

技术编号：19779115 阅读：50 留言：0更新日期：2018-12-15 11:35

本发明专利技术公开了一种基于多模态表征的细粒度图像分类方法，利用知识库的嵌入模型，将知识用分布式的向量表达，结合文本的分布式词嵌入表达形式，从而获取图像分类中标签的语义向量表达。并且设计深度学习模型，分别通过检测网络和分类网络学习图像不同层面的特征，将图像与其对应的分类标签的语义向量表达形式联合映射分类，提高了细粒度图像分类的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态表征的细粒度图像分类方法
本专利技术涉及一种基于多模态表征的细粒度图像分类技术，属于计算机视觉

技术介绍
在计算机视觉研究领域，图像分类作为一个重要的研究内容，已经在众多现实场景中得到应用，如自动驾驶中的道路场景识别，安防领域中的人脸识别等。在图像识别的任务中，细粒度图像分类越发得到重视。细粒度图像分析任务相对通用图像(General/GenericImages)任务的区别和难点在于其图像所属类别的粒度更为精细，也就是细粒度分类最大的特点：类内差别大，类之间差别小。这些精细分类在图像视觉上相似度非常高，需要提取其中细粒度的特征来区分，但是在细粒度类别标记时一般需要大量的领域知识，因此标注工作量大，并且对于标记人员的要求也比较高，因此如何设计系统识别图像类别，是一个紧迫和艰巨任务。当前图像分类中主要涉及到对高区分度的物体进行分类例如：马和猫，这些图像具有很强的视觉区分度，这些图像中相似成分更多是偶然性的，而非系统的相似。但是相对于同种类别中不同图像不仅具有高度的轮廓相似度，而且仅在某些细微的部位有颜色可见形式不同，也就是这种相似成分非常高，并且这些图像相似更多的是系统性的，不容易区分的。另一方面，同一物体的不同光照，不同姿势下的在图像上的表现都有很大的差别，细粒度图像分类的难点，就是如何在不同物种的事物，在视觉的各种不同侧面显示极高的视觉相似度，挖掘其中细微的图像差异，并且保证对图像的正确分类。如之前所述，在细粒度图像分类中，由于将同类数据细化到不同物种，类别越精细，标注数据的获取越困难，如何在少量的标注数据上训练网络，使得网络能够得到好...

【技术保护点】
1.一种基于多模态表征的细粒度图像分类方法，其特征在于：该方法包括如下步骤：1)确定识别的领域以及该领域的图像数据集合

【技术特征摘要】
1.一种基于多模态表征的细粒度图像分类方法，其特征在于：该方法包括如下步骤：1)确定识别的领域以及该领域的图像数据集合<x，y>∈S，其中S表示所有待分类图片，x表示待分类图片，y表示分类标签；分类标签y对应人为构建的视觉属性集合Ai∈A，其中Ai表示图像x的第i个视觉属性，A表示所有图像的视觉属性集合；2)根据分类标签y，从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词，所有抽取的结果作为领域知识实体；根据所述领域知识实体从知识库中抽取全部三元组知识，根据视觉属性集合A，构建视觉知识三元组与抽取的领域知识库组成最终的知识库；3)利用知识库表示领域的知识嵌入模型，得到分类标签y在知识库空间下的低维向量表达δ1(y)；4)利用搜索引擎或者从百科文本中，抽取待识别图像的领域文本；5)利用百科文本训练词嵌入模型，对所述步骤4)中抽取的待识别图像的领域文本进行微调训练，得到分类标签y在文本空间中的向量表达δ2(y)；6)设计双层卷积神经网络处理待分类图像，第一层为分类网络FB，第二层为检测网络FA；利用已有的图像数据集初始化训练分类网络FB，分类网络获取图像的全局视觉特征XB；检测网络FA获取图像的局部视觉特征XA，根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合，得到融合后的视觉特征XAB：XAB＝XA⊙XB其中，⊙表示向量点积运算；7)利用物体的边界信息(x，y，h，w)作为检测网络的监督目标，根据下式计算检测网络的平方误差lA：其中，x，y表示待检测物体的左上角坐标，h，w表示待检测物体的高度和宽度，x′，y′为检测网络预测的物体左上角坐标，h′，w′为检测网络预测的物体的高度和宽度；8)在分类网络FB上添加两层无激活函数的全连接层，处理成映射回归网络，利用图像标签在知识库的嵌入向量δ1(y)和文本空间的嵌入向量δ2(y)作为分类网络FB的监督目标，根据下式计算监督的平方误差lB：其中向量和表...

【专利技术属性】
技术研发人员：漆桂林，徐华鹏，徐康，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人