【技术实现步骤摘要】
基于跨媒体稀疏主题编码的图像自动标注方法
本专利技术属于计算机应用领域、图像处理、数据挖掘,特别涉及一种基于跨媒体稀疏主题编码的图像自动标注方法。
技术介绍
随着互联网的发展以及数码设备的普及,图像资源数据量以指数形式迅速增长。如何对图像资源进行有效的检索和管理是当前计算机视觉领域研究的重要课题。传统的基于内容的图像检索使用了低层次的图像特征,无法与高层语义之间建立很好的关联,即存在语义鸿沟,使得检索质量难以满足要求。图像的自动标注是通过已知图像来建立图像视觉特征空间与高层语义空间的映射或关联关系,即将注释词和图像两种异构媒体数据投影到一个共享子空间,以达到预测未知图像的标注词的目标,进而弥补了“语义鸿沟”的缺陷。近年来,大量研究人员致力于对未标注图像自动分配注释词的研究。针对如何有效地进行图像的自动标注,以下论文提供了不同的技术方案:文献1.BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JournalofmachineLearningresearch,2003,3(Jan):993-1022.文献1基于概率主题模型去寻找图像集的隐变量表示和注释词集合之间的条件关系。概率主题模型虽然实现了性能优越的图像标注,但存在两个限制:概率主题模型不能有效地控制潜在表示的稀疏性;概率主题模型在图像与注释词之间有学习紧密相关性,意味着这种方法不适用于一个词关联多个图像的场景。
技术实现思路
本专利技术的目的在于克服现有技术中存在的问题,提供一种基于跨媒体稀疏主题编码的图像自动标注方法,为用户在图像标注过程中提供相比于其他 ...
【技术保护点】
基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:包括以下步骤:步骤1、多媒体文档的定义及表示:多媒体文档由一张图像和注释词组成,由图像生成图像词,并利用词袋模型将多媒体文档中的注释词表示成向量,得到处理后的多媒体文档;步骤2、跨媒体稀疏主题编码模型构建:根据处理后的多媒体文档和概率主题模型,获得图像跨媒体稀疏主题编码模型;步骤3、利用最大后验概率估计方法,获得多媒体文档中图像词、注释词和两者的关系编码变量的联合分布式,并采用拉普拉斯先验和超高斯对联合分布式中的图像词编码S、多媒体文档编码θ以及关系编码Y进行建模;步骤4、使用坐标下降法对提出的跨媒体稀疏主题编码模型进行优化求解,之后计算图像编码和注释词编码之间的余弦相似度进行图像标注。
【技术特征摘要】
1.基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:包括以下步骤:步骤1、多媒体文档的定义及表示:多媒体文档由一张图像和注释词组成,由图像生成图像词,并利用词袋模型将多媒体文档中的注释词表示成向量,得到处理后的多媒体文档;步骤2、跨媒体稀疏主题编码模型构建:根据处理后的多媒体文档和概率主题模型,获得图像跨媒体稀疏主题编码模型;步骤3、利用最大后验概率估计方法,获得多媒体文档中图像词、注释词和两者的关系编码变量的联合分布式,并采用拉普拉斯先验和超高斯对联合分布式中的图像词编码S、多媒体文档编码θ以及关系编码Y进行建模;步骤4、使用坐标下降法对提出的跨媒体稀疏主题编码模型进行优化求解,之后计算图像编码和注释词编码之间的余弦相似度进行图像标注。2.根据权利要求1所述的基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:步骤1中,把一个D维的多媒体文档表示成语料库(Rd,Wd)表示第d个多媒体文档;其中,Id是在第d个多媒体文档中出现的图像词的索引集合,rid表示第i个图像词在第d个多媒体文档中出现的次数;Jd是指出现在第d个多媒体文档中的注释词的索引集合,表示第j个注释词在第d个多媒体文档中出现的次数;语料库中所有的图像词和注释词被表示成K个主题基的非归一化分布向量,获得图像词典和注释词词典其中表示图像词典中第k行第m列的元素,φkn表示注释词词典中第k行第n列的元素。3.根据权利要求2所述的基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:步骤2中,首先分别从均匀分布上的和取样初始化图像词典Ψ和注释词词典Φ;假设每个图像词编码i∈Id由多媒体文档编码条件独立地给出,每个图像词的出现次数rid来自于平均参数为的分布;对于注释词j,得出关系编码该编码通过图像词编码的线性组合来预测注释词编码其中,同样假设注释词出现次数遵循平均参数为的分布;对于第d个多媒体文档(Rd,Wd):201、从p(θd)分布中抽样,得到一个多媒体文档编码θd;202、对多媒体文档中的每一个图像词i∈Id:2021、从条件分布中抽样得到该图像词编码2022、从条件分布中抽样得到该图像词在多媒体文档中出现的次数rid;203、对多媒体文档中的每一个注释词j∈Jd:2031、从分布中抽样关系编码然后用计算出注释词编码;2032、从分布中抽样得到该注释词在文档中出现的次数其中完成跨媒体稀疏主题编码模型构建;Ψ·i表示第i列的Ψ,Φ·j表示第j列的Φ。4.根据权利要求2所述的基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:步骤3中,多媒体文档中隐变量间的联合分布被定义如下:其中表示第d个多媒体文档中注释词的关系编码;同时定义拉普拉斯先验p(θd)∝exp(-λ||θd||1)和以及超高斯其中,超参数(λ,μ,γ,ρ)是非负的,∝是正比例符号;令Γ={Ψ,Φ}作为语料库U的词典,Δ={Θ,S,Y}表示所有多媒体文档在语料库中的编码;Θ={θd:d=1,...,D}表示所有多媒体文档编码,表示所有图像词编码,表示所有关系编码;令R={Rd:d=1,...,D}和W={Wd:d=1,...,D}分别表示在语料库U中的所有图像和注释词;利用公式(1)的联合分布,跨媒体稀疏主题编码被定义为通过词典学习寻找一个最大后验概率估计,优化问题如下:其中,表示图像词数量的负对数似然函数,表示注释词数量的负对数似然函数,和分别是rid和的的重建,正则项表示如下:其中,θd,和被限制为非负。5.根据权利要求4所述的基于跨媒体稀疏主题编码的图像自动标注方法,其特征在于:为了确定多媒体文档中隐变量间的联合分布,使用泊松分布去构建图像词似然模...
【专利技术属性】
技术研发人员:刘均,宋凌云,罗敏楠,杨宽,张玲玲,阮建飞,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。