一种多视图图像自动标注方法技术

技术编号:18289654 阅读:58 留言:0更新日期:2018-06-24 04:25
本发明专利技术公开了一种多视图图像自动标注方法,包括步骤有:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;(2)输入待标注图像的多种视觉特征;(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。本发明专利技术改善了计算机的自动图像标注性能,提高自动标注的查准率和查全率。

【技术实现步骤摘要】
一种多视图图像自动标注方法
本专利技术涉图像处理领域,尤其涉及一种多视图图像自动标注方法。
技术介绍
随着多媒体信息技术的迅猛发展,对海量图像数据库的有效管理与检索日益成为人们亟待解决的问题。目前,基于文本的图像检索方法仍然是许多图像搜素引擎检索相关图像的重要方法。因此,如果事先为图像分配反映其语义内容的关键词,将大大提高图像检索的准确性和效率。自动图像标注就是让计算机自动智能的完成这一任务。它利用已标注图像集或其他可获得的先验信息自动学习语义概念空间与视觉特征空间的映射关系,并利用这一关系来标注未知语义的图像。该任务难点在于图像的高层语义内容和底层视觉特征之间并不总是相关的,即存在语义鸿沟。现有的基于最近邻的图像标注方法取得了卓越的成绩,但由于测试过程需要与所有训练样本逐一比对带来较大运算量。多视图稀疏编码是图像自动标注中一个重要分支,但现有方法中各视图往往共享相同的稀疏系数,忽略了不同视图的差异性。如何有效利用各视图的相似性和差异性,提高图像自动标注性能还有待进一步研究。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术提供一种多视图图像自动标注方法,增强了计算机的自动图像标注性能。本专利技术提供的一种多视图图像自动标注方法,其改进之处在于,所述方法包括如下步骤:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;所述各视图字典包括多个视觉特征视图字典和一个标签视图字典;(2)输入待标注图像的多种视觉特征;(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。优选的,步骤(1)在进行训练学习前,对所述稀疏模型的目标函数进行修正,设置各视图使用不同的稀疏系数,增设加权的一致性正则项,使各视图稀疏系数同时具有差异性和相似性,得到修正后的目标函数,其表达式为:式中,v为视图序号,v=1,2,…,V+1;V为视觉特征数目;X(v)为所有训练图像第v个视图的特征矩阵,其中X(V+1)是标签视图矩阵,N为训练图像数目,Pv为第v个视图的特征维度;D(v)为第v个视图字典,Nd为字典原子数目;α(v)为第v个视图的稀疏系数矩阵,F为Frobenius范数;为控制稀疏系数各行之间稀疏性的正则项;||(D(v))T||1,∞为控制字典结构各列之间稀疏性的正则项;为一致矩阵;为控制各视图稀疏系数矩阵和一致矩阵之间不一致性的正则项,使各视图的稀疏系数矩阵与一致矩阵具有某种程度的相似性;ω(v)为第v个视图的权值因子,取值归一化在[0,1]范围内,且根据最大熵原理,满足约束条件其中σ是熵的限制值,使得ω(v)的分布不仅仅集中在某些特定视图上;λ1为稀疏系数正则项的调节系数;λ2为稀疏字典正则项的调节系数;λ3为一致正则项的调节系数。较优选的,步骤(1)所述多种视觉特征包括手工设计特征和基于VGG的深度学习特征;所述手工设计特征包括RGB、LAB、HSV、DenseHue、HarrisHue、DenseSIFT、HarrisSIFT、DenseSIFTV3H1、HarrisSIFTV3H1、DenseHueV3H1、HarrisHueV3H1、RGBV3H1、LABV3H1、HSVV3H1和GIST;当多种视图输入到多视图稀疏模型中进行训练学习,语义标签作为一个视图参与训练学习。较优选的,采用轮流优化方法求解所述修正后的目标函数,包括:固定第v个视图字典D(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:利用上式更新所述稀疏系数矩阵α(v)的值;当在一次迭代中所述稀疏系数矩阵α(v)的值更新后,计算一致矩阵表达式为:固定第v个视图的稀疏系数矩阵α(v)和第v个视图的权值因子ω(v)的值,简化所述修正后的目标函数为:利用上式更新所述第v个视图字典D(v)的值;固定第v个视图字典D(v)和稀疏系数矩阵α(v)的值,简化所述修正后的目标函数为:上式中,ξ是拉格朗日乘子,ξ>0;更新所述第v个视图的权值因子ω(v)的表达式为:较优选的,步骤(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数,具体包括:通过对下式求解,得到待标注图像各视觉特征视图的重构系数向量αt(v):式中,为待标注图像的视觉特征视图,v=1,2,…,V;为待标注图像视觉特征视图的稀疏系数的均值向量;通过加权平均所述待标注图像各视觉特征视图的重构系数向量估计待标注图像的标签视图的稀疏系数向量,表达式为:式中,为待标注图像的标签视图的稀疏系数向量。本专利技术的技术方案中:1)提出了基于加权一致正则的多视图结构稀疏表示模型。考虑到同一幅图像的不同特征视图应同时具有相似性和差异性的特点,该模型允许各视图使用不同的稀疏系数,同时,利用一致正则项强化各视图稀疏系数与一致矩阵之间的相似性约束。因此,该模型可以同时利用各视图相似性和差异性的先验来进行编码和标注,有利于得到更优化的字典和稀疏系数。此外,考虑到不同视图对标注性能的贡献不同,该模型在一致正则项中对各视图引入不同的权值因子,并共同参与到字典和稀疏系数的学习过程中,自适应地为各视图分配不同的权值,从而达到优化选择多视图的目的,有利于提高标注性能。2)提出了基于多视图加权的标签预测机制。利用学习的视觉特征视图权值因子和重构测试图像得到的视觉特征视图的稀疏系数,通过加权重构计算测试图像标签视图的稀疏系数,避免了传统方法中各视图共享稀疏系数而忽略了各视图之间差异性的问题,为预测更准确的标签视图奠定了基础。3)基于ILSVRC2012数据集上预训练的卷积神经网络提取深度学习特征,并将其看作另一个视图与手工设计特征及标签信息一起纳入多视图学习框架中,集成更多的互补信息,改善标注性能。附图说明图1为本专利技术实施例的流程图;图2为本专利技术实施例的在ESPGame数据集和IAPRTC-12数据集的性能分析示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本专利技术进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本专利技术的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本专利技术的这些方面。本实施例提出的一种多视图图像自动标注方法,其流程图如图1所示,具体包括如下步骤:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子。其中,各视图字典包括多个视觉特征视图字典和一个标签视图字典,多种视觉特征包括手工设计特征和基于VGG的深度学习特征;所述手工设计特征包括RGB、LAB、HSV、DenseHue、HarrisHue、DenseSIFT、HarrisSIFT、DenseSIFTV3H1、HarrisSIFTV3H1、DenseHueV3H1、HarrisHueV3H1、RGBV3H1、LABV3H1、HSVV3H1和GIST。当多种视图输入到多视图稀疏模型中进行本文档来自技高网...
一种多视图图像自动标注方法

【技术保护点】
1.一种多视图图像自动标注方法,其特征在于,所述方法包括如下步骤:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;所述各视图字典包括多个视觉特征视图字典和一个标签视图字典;(2)输入待标注图像的多种视觉特征;(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。

【技术特征摘要】
1.一种多视图图像自动标注方法,其特征在于,所述方法包括如下步骤:(1)设置已标注图像的语义标签和多种视觉特征作为多种视图,输入到多视图稀疏模型中进行训练学习,得到各视图字典和各视图权值因子;所述各视图字典包括多个视觉特征视图字典和一个标签视图字典;(2)输入待标注图像的多种视觉特征;(3)利用所述各视图字典和所述各视图权值因子稀疏重构所述待标注图像,计算得到标签视图的稀疏重构系数;(4)将所述标签视图字典和所述标签视图的稀疏重构系数相乘,得到待标注图像语义标签的分值;(5)将分值从高到低排列,选择前5个语义标签标注所述待标注图像。2.如权利要求1所述的多视图图像自动标注方法,其特征在于,步骤(1)在进行训练学习前,对所述稀疏模型的目标函数进行修正,设置各视图使用不同的稀疏系数,增设加权的一致性正则项,得到修正后的目标函数,其表达式为:式中,v为视图序号,v=1,2,…,V+1;V为视觉特征数目;X(v)为所有训练图像第v个视图的特征矩阵,N为训练图像数目,Pv为第v个视图的特征维度;D(v)为第v个视图字典,Nd为字典原子数目;α(v)为第v个视图的稀疏系数矩阵,F为Frobenius范数;||α(v)||1,∞为控制稀疏系数各行之间稀疏性的正则项;||(D(v))T||1,∞为控制字典结构各列之间稀疏性的正则项;为一致矩阵;为控制各视图稀疏系数矩阵和一致矩阵之间不一致性的正则项;ω(v)为第v个视图的权值因子,取值归一化在[0,1]范围内,且其中σ是熵的限制值;λ1为稀疏系数正则项的调节系数;λ2为稀疏字典正则项的调节系数;λ3为一致正则项的调节系数。3.如权利要求1所述的多视图图像自动标注方法,其特征在于,步骤(1)所述多种视觉特征包括手工设计特征和基于VGG的深...

【专利技术属性】
技术研发人员:臧淼
申请(专利权)人:北方工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1