一种基于标签语义的显著对象提取方法技术

技术编号:17813179 阅读:33 留言:0更新日期:2018-04-28 05:45
本发明专利技术提供一种基于标签语义的显著对象提取方法,包括以下步骤:进行训练,进行测试,得到最终的显著图,所述训练包括以下子步骤,输入训练集,对图像I进行超像素分割。本发明专利技术首先挑出标签中的对象标签,通过对象标签对应的对象检测子进行检测,得到基于标签语义的显著性特征,并将标签语义信息和基于外观的显著性特征融合起来进行显著对象的检测。由于标签语义信息是高级语义信息,更能改善传统的显著对象检测方法。

【技术实现步骤摘要】
一种基于标签语义的显著对象提取方法
本专利技术涉及数字图像处理的
,特别是一种基于标签语义的显著对象提取方法。
技术介绍
标签的语义虽然在图像标注领域已经得到了广泛应用,但是,标签信息通常和显著对象提取任务是分开处理的,应用在显著对象提取上的工作并不多。文献[WenWang,CongyanLang,SongheFeng.ContextualizingTagRankingandSaliencyDetectionforSocialImages.AdvancesinMultimediaModelingLectureNotesinComputerScienceVolume7733,2013,pp428-435.]和文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combiningbottom-upandtop-downinformationforsaliencydetection.ComputerVisionandImageUnderstanding,2014,118(1):40-49.],这两篇论文里面均用到了标签语义信息。文献[WenWang,CongyanLang,SongheFeng.ContextualizingTagRankingandSaliencyDetectionforSocialImages.AdvancesinMultimediaModelingLectureNotesinComputerScienceVolume7733,2013,pp428-435.]将标签排序任务和显著性检测任务整合在一起,迭代地进行标签排序和显著性检测任务。文献[Zhu,G.,Wang,Q.,Yuan,Y.Tag-saliency:Combiningbottom-upandtop-downinformationforsaliencydetection.ComputerVisionandImageUnderstanding,2014,118(1):40-49.]提出Tag-Saliency模型,通过基于层次的过分割和自动标注技术进行多媒体数据的标注。这两篇文献的共同缺点是显著性标注的效果依赖于区域标注,依靠多示例学习的方法不容易泛化;而且,这两篇文献均没有考虑到标签之间的上下文关系。我们的工作所要解决的主要问题是采用新的标签特征表示方法,并考虑标签之间的上下文关系,并与图像的低级特征进行融合,提高显著对象的提取效果。
技术实现思路
为了解决上述的技术问题,本专利技术提出高级语义标签和底层外观特征融合的显著对象提取方法。首先对图像进行超像素分割;提取每个超像素的外观特征,进行基于外观特征的显著性计算;找出标签中的对象标签,通过对象标签对应的对象检测子进行检测,进行标签语义的显著性计算;最后通过CRF模型并将标签语义信息和基于外观的显著性特征融合起来,得到最终的显著图。由于标签语义信息是高级语义信息,所以本专利技术更能改善传统的显著对象检测方法。本专利技术提供一种基于标签语义的显著对象提取方法,包括以下步骤:步骤1:进行训练;所述训练包括以下子步骤:步骤11:输入训练集;步骤12:对图像I进行超像素分割;步骤2:进行测试;步骤3:得到最终的显著性。优选的是,所述步骤1还包括以下步骤:步骤13:提取所述图像的基于外观的视觉特征;步骤14:进行基于所述图像外观特征的显著性计算;步骤15:找到标签中的对象标签;步骤16:进行基于所述标签语义的显著性特征计算;步骤17:对所述训练集中的所述图片进行CRF建模。在上述任一方案中优选的是,所述步骤12还为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。在上述任一方案中优选的是,所述步骤13还为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vik。在上述任一方案中优选的是,所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:其中,D(vik,vjk)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。在上述任一方案中优选的是,所述步骤15还为对对象标签对应的对象检测子进行对象检测。在上述任一方案中优选的是,所述步骤16还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fki=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fki=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的概率即为标签语义显著性特征。在上述任一方案中优选的是,所述步骤17还为对目标函数进行训练,得出训练模型。在上述任一方案中优选的是,S代表此图像I的显著图,si代表图像I中第i个超像素的显著值;ti∈RX代表图像I中第i个超像素的标签概率向量,X代表图像集的标签集合的标签总个数,tij∈[0,1],1≤j≤X代表第j个标签在第i个超像素出现的概率;xi代表图像I中第i个超像素的视觉特征。在上述任一方案中优选的是,采用条件随机场模型(CRF)对图像的显著对象提取进行建模。在模型中,显著值由图像外观特征、标签的语义内容以及相邻区域的相互作用决定。Z是概率归一化因子,也称为划分函数。Ui是一元项,Bij是二元项。一元项Ui描述了图像I中第i个超像素的显著值同时由视觉特征xi和标签语义特征ti决定,可以由下面泛化的线性预测模型来描述,其中,δ(·)是sigmoid函数,δ(z)=1/(1+e-z)。模型参数wt和wf表示权重,反映了视觉特征xi和标签语义特征ti在计算显著性时起了多大的作用。Bij是二元项,表明一个区域的显著性不仅由区域的内容决定,而且依赖于和其他区域之间的空间关系,这里区域的内容不仅包括区域的外观特征,还包括区域的语义内容。二元项Bij的计算如下面公式所示。其中,vt和vf分别代表标签语义和视觉外观特征的权重。函数u代表空间约束关系。在上述任一方案中优选的是,所述测试包括如下步骤:步骤21:输入一幅图像I;步骤22。对图像I进行超像素分割;步骤23:提取图像的基于外观的特征;步骤24:进行基于图像外观特征的显著性计算;步骤25:找到标签中的对象标签,通过对象检测子进行对象检测;步骤26:进行基于图像标签语义特征的显著性计算。在上述任一方案中优选的是,所述步骤22为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。在上述任一方案中优选的是,所述步骤23为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vik。在上述任一方案中优选的是,所述步骤24还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:其中,D(vik,vjk)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。在上述任一方案中优选的是,所述26还为第k个对象检测子检测完毕后本文档来自技高网
...
一种基于标签语义的显著对象提取方法

【技术保护点】
一种基于标签语义的显著对象提取方法,包括以下步骤:步骤1:进行训练;所述训练包括以下子步骤:步骤11:输入训练集;步骤12:对图像I进行超像素分割;步骤2:进行测试;步骤3:得到最终的显著值。

【技术特征摘要】
1.一种基于标签语义的显著对象提取方法,包括以下步骤:步骤1:进行训练;所述训练包括以下子步骤:步骤11:输入训练集;步骤12:对图像I进行超像素分割;步骤2:进行测试;步骤3:得到最终的显著值。2.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤1还包括以下步骤:步骤13:提取所述图像的基于外观的视觉特征;步骤14:进行基于所述图像外观特征的显著性计算;步骤15:找到标签中的对象标签;步骤16:进行基于所述标签语义的显著性特征计算;步骤17:对所述训练集中的所述图片进行CRF建模。3.如权利要求1所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤12还为图像I被分割为M个超像素,每个超像素表示为Ri,1≤i≤M。4.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤13还为第i个超像素的外观视觉特征为vi,在第k维的特征通道上的特征可以表示为vik。5.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤14还为第i个超像素在第k维的特征通道上的显著性的计算方法如下:其中,D(vik,vjk)代表超像素Ri和超像素Rj在第k维的特征通道上的差异。wij代表空间距离权重,计算方法为pi代表超像素Ri的平均位置。αj代表超像素Rj的归一化的面积。6.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤15还为对对象标签对应的对象检测子进行对象检测。7.如权利要求2所述的基于标签语义的显著对象提取方法,其特征在于:所述步骤16还为第k个对象检测子检测完毕后,图像中的超像素包含检测子对象的可能性为如果超像素多于一半的区域被包含在第i个矩形框里,则fki=1,如果超像素没有被包含在第i个矩形框里或少于一半的区域被包含在第i个矩形框里,fki=0。对每个超像素计算得到的可能性可以看做是一种先验特征。X个对象检测子都检测完毕后,每个超像素得到X维特征。X维的特征归一化后表示为t,t∈RX,t的每一维代表超像素属于每一类特定对象的概率。计算得到的...

【专利技术属性】
技术研发人员:梁晔
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1