基于用户信息建模的图像标注增强方法技术

技术编号:7467727 阅读:254 留言:0更新日期:2012-06-29 19:57
本发明专利技术是一种基于用户信息建模的图像标注增强方法,首先,用户、图像及标注的原始关系被表示成一个三阶张量;然后,观测到的原始标注被表示成正负样本对,张量分解的目标是最小化正负样本对的排序关系;最终,利用分解得到的核心张量和因子矩阵进行子空间变换,可以得到共同子空间上的图像及标注表示。在大规模图片分享网站数据上,证明了发明专利技术的方法获得了更好的标注增强效果。

【技术实现步骤摘要】

本专利技术属于信息检索
,涉及基于内容的图像检索,具体地涉及用户建模及其在图像标注增强的方法。
技术介绍
基于内容的图像检索(CBIR)经历了以图找图(query by example)、基于图像周围文本信息(query by surrounding text)和基于标注信息(query by tag)三个阶段,其中基于标注信息的图像检索是真正的基于语义的,被认为最有希望解决语义鸿沟的问题。随着媒体分享网站的兴起,用户在上传图片的过程中,会附带为图片提供标注;但这些原始标注信息存在着不准确、不完整和主观模糊等问题,影响了图像检索的效率。图像标注增强旨在对原始标注进行处理,去除噪音、补充缺失标注,使其更好地为图像检索任务服务。图像标注增强方法实际就是分析图像和标注之间的关系,目前的标注增强方法利用第η图像与第η+1图像、第η标注与第η+1标注的相似度分析传播影响重构图像和标注之间的关系,采用的方法包括随机行走、稀疏分解、概率矩阵分解等等。然而,原始标注是由用户产生的,原始标注的不准确、不完整和主观模糊问题也是用户的行为模式带来的,现有方法忽略了用户信息在标注过程中的作用。
技术实现思路
(一 )要解决的技术问题为了解决现有技术方案存在技术问题,本专利技术的目的是提供一种。( 二 )技术方案为实现上述目的,本专利技术提供一种,该方法的步骤包括步骤Sl 图片分享网站上的原始标注数据作为输入,利用三阶张量表示用户、图像和标注间的关系,生成用户、图像、标注之间的三元异质关系,以及用户与用户、图像与图像、标注与标注的同质关系;具体的表示方法是利用用户加入共同的兴趣组计算用户与用户的相关性;利用图像与图像的视觉特征距离计算图像与图像的相关性;利用标注与标注共同出现的频率和该词语在词网上的相关程度,分别计算标注与标语的空间相关性和语义相关性;步骤S2 对三阶张量用排序表示,对三阶张量的每一个用户对、图像对,用观测到的原始标注构成正样本集合,用与正样本集合既不空间相关又不语义相关的标注构成负样本集合;将同质关系的相似性矩阵作为平滑约束加入到目标函数中,利用选择优化方法对该目标函数进行迭代求解,得到的用户、图像、标注因子矩阵和描述各子空间关系的核心张量;步骤S3 利用因子矩阵乘核心张量,对用户、图像、标注因子矩阵和描述各子空间关系的核心张量做空间变换;在用户维做积分,计算得到标注在图像子空间上的表示;用在同一子空间的图像表示和标注表示做内积,获得图像与标注的关系;对于一幅图像,与该幅图像关联最紧密的前K个标注即为增强后的该幅图像标注,K为根据该幅图像标注质量事先约定自然数。优选实施例,利用三阶张量对标注信息的用户、图像、标注关系进行计算和建模, 将用户信息加入到图像与标注的分析和增强任务中。优选实施例,图像标注的增强任务被转化为根据原始标注张量进行重构,最小化目标函数的过程。优选实施例,目标函数是由对原始标注生成的正负样本对排序关系的破坏以及由同质关系相似度矩阵构建的正则化项组成。优选实施例,通过计算同一子空间内图像和标注向量的内积获得图像增强后的标注;标注矩阵需要先乘核心矩阵再对用户维积分,以转换为图像子空间的向量计算。(三)本专利技术的有益效果针对原始标注进行标注增强就成为了基于标注的图像检索和理解的重要步骤。本专利技术在图像标注分析中引入用户信息,提出了基于排序的多关联张量分解的方法,可以得到更紧致的图像和标注表示,从而进行图像标注的增强。本专利技术解决了用户产生的大量主观模糊、不完整不准确的原始标注的问题。用户信息的引入可以帮助理解原始标注中的主观模糊、不准确等问题,并进一步分解原始的图像和标注矩阵,得到更紧致的图像和标注表示,从而用于分析图像和标注之间的关系。附图说明图Ia是本专利技术用户信息的图像标注增强方法的流程图;图Ib是本专利技术用户信息的图像标注增强框架图;图2a-图2b是本专利技术的标注数据的表示示意图,其图2a显示的是图Ib中的例子构建的;图3是本专利技术的张量(Tucker)分解示意图;图4a-图4f是本专利技术实施例图像增强结果示例。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。本专利技术考虑到用户信息在图像标注过程中的作用,本专利技术实现了一种。本专利技术的方法充分利用了图像分享网站中用户、图像、标注三者之间的各种交互行为,从因子分析的角度重构用户、图像及标注之间的关系,并得到紧致的图像和标注表示,从而用于图像的标注增强。在大规模网络数据集上,通过与传统的图像标注增强方法比较,本专利技术的方法可以获得更好的标注增强效果。本专利技术考虑用户信息的图像标注增强的结构流程图在图Ia和图Ib中显示,其包含三个组成部分1)数据采集和表示,例如图Ib中,图像的原始标注中包括飞机、天空、II、 外星人、棒极了等,表示用户对该幅图像的理解;2)对基于排序的多关联张量的张量分解方法;3)图像标注增强;图Ib中包括多个用户,多个标注以及多个图像,u代表用户,t代表标注,i代表图像,描述u、t、i的个数时用下标n= 1,2,3,4,....分别代表用户un、标注 t、图像in的序数,例如U1表示第一个用户,i2表示第二个图像,t3表示第三个标注,等等。1.数据采集和表示多个用户的多个图像和多个标注在图片分享网站上存在着丰富的交互信息,本专利技术要利用的主要有两类信息1) 一个用户的一个图像及一个标注之间的异质关系,即用户对图像进行了哪些标注;2)第一用户U1与第二用户U2、第一图像I1与第二图像i2、第一标注、与第二标注t2的同质关系,比如多个用户共同加入了哪些兴趣组,多个图像之间的视觉相似度,多个标注之间的语义相关性等。1. 1用户、图像、标注的异质关系标注行为包含了用户、图像和标注三类实体,所述用户实体、图像实体和标注实体分别用集合符号Ω,Λ,Γ表示。用户的图像和标注的异质关系描述的实际就是用户的原始标注,观测到的异质关系可表示为0(=ΩχΛχΓ,即任何一个三元组(u,i,t) e 0意味着用户u对图像i标注t 了。因此,这种三阶关系可以很自然地用三阶张量来表示,用户U、图像i、标注t的三阶关系为Y e Rli2lxlAlxlnl可表示如下权利要求1.一种,其特征在于,该方法的步骤包括步骤Sl 图片分享网站上的原始标注数据作为输入,利用三阶张量表示用户、图像和标注间的关系,生成用户、图像、标注之间的三元异质关系,以及用户与用户、图像与图像、 标注与标注的同质关系;具体的表示方法是利用用户加入共同的兴趣组计算用户与用户的相关性;利用图像与图像的视觉特征距离计算图像与图像的相关性;利用标注与标注共同出现的频率和该词语在词网上的相关程度,分别计算标注与标语的空间相关性和语义相关性;步骤S2 对三阶张量用排序表示,对三阶张量的每一个用户对、图像对,用观测到的原始标注构成正样本集合,用与正样本集合既不空间相关又不语义相关的标注构成负样本集合;将同质关系的相似性矩阵作为平滑约束加入到目标函数中,利用选择优化方法对该目标函数进行迭代求解,得到的用户、图像、标注因子矩阵和描述各子空间关系的核心张量;步骤S3 利用因子矩阵乘核心张量,对用户、图像、标注因子矩阵和描述各子空间关系的核心张量做空间变换;在用户维本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:徐常胜桑基韬
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术