当前位置: 首页 > 专利查询>东南大学专利>正文

基于多模态表征的细粒度图像分类方法技术

技术编号:19779115 阅读:50 留言:0更新日期:2018-12-15 11:35
本发明专利技术公开了一种基于多模态表征的细粒度图像分类方法,利用知识库的嵌入模型,将知识用分布式的向量表达,结合文本的分布式词嵌入表达形式,从而获取图像分类中标签的语义向量表达。并且设计深度学习模型,分别通过检测网络和分类网络学习图像不同层面的特征,将图像与其对应的分类标签的语义向量表达形式联合映射分类,提高了细粒度图像分类的精确度。

【技术实现步骤摘要】
基于多模态表征的细粒度图像分类方法
本专利技术涉及一种基于多模态表征的细粒度图像分类技术,属于计算机视觉

技术介绍
在计算机视觉研究领域,图像分类作为一个重要的研究内容,已经在众多现实场景中得到应用,如自动驾驶中的道路场景识别,安防领域中的人脸识别等。在图像识别的任务中,细粒度图像分类越发得到重视。细粒度图像分析任务相对通用图像(General/GenericImages)任务的区别和难点在于其图像所属类别的粒度更为精细,也就是细粒度分类最大的特点:类内差别大,类之间差别小。这些精细分类在图像视觉上相似度非常高,需要提取其中细粒度的特征来区分,但是在细粒度类别标记时一般需要大量的领域知识,因此标注工作量大,并且对于标记人员的要求也比较高,因此如何设计系统识别图像类别,是一个紧迫和艰巨任务。当前图像分类中主要涉及到对高区分度的物体进行分类例如:马和猫,这些图像具有很强的视觉区分度,这些图像中相似成分更多是偶然性的,而非系统的相似。但是相对于同种类别中不同图像不仅具有高度的轮廓相似度,而且仅在某些细微的部位有颜色可见形式不同,也就是这种相似成分非常高,并且这些图像相似更多的是系统性的,不容易区分的。另一方面,同一物体的不同光照,不同姿势下的在图像上的表现都有很大的差别,细粒度图像分类的难点,就是如何在不同物种的事物,在视觉的各种不同侧面显示极高的视觉相似度,挖掘其中细微的图像差异,并且保证对图像的正确分类。如之前所述,在细粒度图像分类中,由于将同类数据细化到不同物种,类别越精细,标注数据的获取越困难,如何在少量的标注数据上训练网络,使得网络能够得到好的分类效果,是值得思考的问题。随着深度学习技术不断进步和普及,细粒度图像识别在计算机视觉领域成为了一个研究热点。由于细粒度分类中物体的差异仅体现在细微之处。如何有效地对前景对象进行检测分类,并从中发现重要的局部区域(partlocation)信息,也就是更具区分效果的特征,成为了细粒度图像分类算法要解决的关键问题。对细粒度分类模型,可以按照其使用的监督信息的强弱,分为基于强监督信息的分类模型和基于弱监督信息的分类模型两种大类,,另外还有一种工作是引入辅助信息实现图像识别。这些方法主要内容如下:(1)所谓“强监督细粒度图像分类模型”是指:在模型训练时,为了获得更好的分类精度,除了图像的类别标签外,还使用了物体标注框(ObiectBoundingBox)和部位标注点(PartAnnotation,同时对应着attribute)等额外的人工标注信息,并且在测试的阶段同时,使用这些标注信息。(2)思路同强监督分类模型类似,弱监督分类模型同时也需要借助全局和局部信息来做细粒度级别的分类。而区别在于,弱监督细粒度分类希望在不借助partannotation的情况下,也可以做到较好的局部信息的捕捉。该方法主要通过在训练阶段通过检测网络(DetectionNetwork),检测关键的局部位置以及相关的点,从而在测试的时候只使用物体级别的标注实现整个识别过程。(3)引入文本信息的模型主要考虑到,文本中有很多描述待分类物体的文本数据,这些数据中会有大量的描述信息,这些信息很多时候是和分类相关的,有时候能够很好的区分待测物体的关键点,如何有效利用这些文本信息成为该类方法主要考虑的问题。目前,经过大量的调查和研究,细粒度图像分类在理论上已经取得了长足的进步。考虑到文本和知识库中提供了大量的图像标签的语义信息以及相关的结构化信息,以及文本中具有分类物体大量描述信息,如何将这些不同模态的信息相辅相成,必然成为一个有趣的研究方向,将为图像分类任务提供了更多非视觉信息支持。
技术实现思路
技术问题:本专利技术提供一种提高了细粒度图像分类的精确度,能够提高图像分类的任务的准确度,尤其是对垂直领域的细粒度的分类任务,具有很好的分类效果的基于多模态表征的细粒度图像分类方法。技术方案:本专利技术的基于多模态表征的细粒度图像分类方法,包括如下步骤:1)确定识别的领域以及该领域的图像数据集合<x,y>∈S,其中S表示所有待分类图片,x表示待分类图片,y表示分类标签;分类标签y对应人为构建的视觉属性集合Ai∈A,其中Ai表示图像x的第i个视觉属性,A表示所有图像的视觉属性集合;2)根据分类标签y,从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词,所有的抽取的结果作为领域知识实体;根据所述领域知识实体从知识库中抽取全部三元组知识,根据视觉属性集合A,构建视觉知识三元组与抽取的三元组知识组成最终的知识库;3)利用知识库表示领域的知识嵌入模型,得到分类标签y在知识库空间下的低维向量表达δ1(y);4)利用搜索引擎或者从百科文本中,抽取待识别图像的领域文本;5)利用百科文本训练词嵌入模型,对所述步骤4)中抽取的待识别图像的领域文本进行微调训练,得到分类标签y在文本空间中的向量表达δ2(y);6)设计双层卷积神经网络处理图待分类图像,第一层为分类网络FB,第二层为检测网络FA;利用已有的图像数据集初始化训练分类网络FB,分类网络获取图像的全局视觉特征XB;检测网络FA获取图像的局部视觉特征XA,根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合,得到融合后的视觉特征XAB:XAB=XA⊙XB其中,⊙表示向量点积运算;7)利用物体的边界信息(x,y,h,w)作为检测网络的监督目标,根据下式计算检测网络的平方误差lA:其中,x,y表示待检测物体的左上角坐标,h,w表示待检测物体的高度和宽度,x′,y′为检测网络预测的物体左上角坐标,h′,w′为检测网络预测的物体的高度和宽度;8)在分类网络FB上添加两层无激活函数的全连接层,处理成映射回归网络,利用图像标签在知识库的嵌入向量δ1(y)和文本空间的嵌入向量δ2(y)作为分类网络FB的监督目标,根据下式计算监督的平方误差lB:其中向量和表示步骤6)融合后的视觉特征XAB经过网络运行得到的最终的视觉特征,M1和M2表示线性映射矩阵;9)利用优化领域常用的误差优化算法训练网络,根据下式将网络训练时的监督目标结合检测网络和分类网络的监督目标组合成L(x,y):L(x,y)=α*lA+lB其中α为超参数,作为两个网络的平衡因子,根据交叉验证方法选择最优的数值,具体计算公式如下:优化L(x,y)的具体过程为:将整个图像数据集S划分为训练集S1和测试集S2,在S1上优化L(x,y),使得L(x,y)最小化,并且训练的过程中实时在S2上进行收敛性验证,直到测试集上分类准确度收敛稳定。10)对于一个全新的图像x,通过整个网络得到图像的视觉特征和利用如下式在候选的Y集合中选择分类结果:进一步的,本专利技术方法中,步骤3)中的知识嵌入模型为TransR模型。进一步的,本专利技术方法中,步骤4)中的百科文本为维基百科中实体页面对应的文本。进一步的,本专利技术方法中,步骤5)中的词嵌入模型为Word2Vec模型。进一步的,本专利技术方法中,步骤6)中的已有的图像数据集为ImageNet,所使用的分类网络FB为VGG、GoogleNet或ResNet的底层卷积设计结构;识别的图像预处理成224*224*3数据结构作为网络输入,预处理训练完毕后,剔除softmax层,加入两层全连接的映射本文档来自技高网
...

【技术保护点】
1.一种基于多模态表征的细粒度图像分类方法,其特征在于:该方法包括如下步骤:1)确定识别的领域以及该领域的图像数据集合

【技术特征摘要】
1.一种基于多模态表征的细粒度图像分类方法,其特征在于:该方法包括如下步骤:1)确定识别的领域以及该领域的图像数据集合<x,y>∈S,其中S表示所有待分类图片,x表示待分类图片,y表示分类标签;分类标签y对应人为构建的视觉属性集合Ai∈A,其中Ai表示图像x的第i个视觉属性,A表示所有图像的视觉属性集合;2)根据分类标签y,从已有的同义词词库和上下文词库中分别抽取y的同义词和上下位词,所有抽取的结果作为领域知识实体;根据所述领域知识实体从知识库中抽取全部三元组知识,根据视觉属性集合A,构建视觉知识三元组与抽取的领域知识库组成最终的知识库;3)利用知识库表示领域的知识嵌入模型,得到分类标签y在知识库空间下的低维向量表达δ1(y);4)利用搜索引擎或者从百科文本中,抽取待识别图像的领域文本;5)利用百科文本训练词嵌入模型,对所述步骤4)中抽取的待识别图像的领域文本进行微调训练,得到分类标签y在文本空间中的向量表达δ2(y);6)设计双层卷积神经网络处理待分类图像,第一层为分类网络FB,第二层为检测网络FA;利用已有的图像数据集初始化训练分类网络FB,分类网络获取图像的全局视觉特征XB;检测网络FA获取图像的局部视觉特征XA,根据下式将两种网络得到的视觉特征通过向量点积运算操作进行融合,得到融合后的视觉特征XAB:XAB=XA⊙XB其中,⊙表示向量点积运算;7)利用物体的边界信息(x,y,h,w)作为检测网络的监督目标,根据下式计算检测网络的平方误差lA:其中,x,y表示待检测物体的左上角坐标,h,w表示待检测物体的高度和宽度,x′,y′为检测网络预测的物体左上角坐标,h′,w′为检测网络预测的物体的高度和宽度;8)在分类网络FB上添加两层无激活函数的全连接层,处理成映射回归网络,利用图像标签在知识库的嵌入向量δ1(y)和文本空间的嵌入向量δ2(y)作为分类网络FB的监督目标,根据下式计算监督的平方误差lB:其中向量和表...

【专利技术属性】
技术研发人员:漆桂林徐华鹏徐康
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1