The invention provides a method for image annotation and mining of visual and semantic similarity, which comprises the following steps: obtaining training image from image focus on the image subset; test images in each training image subset obtain K1 nearest neighbor and the visual composition set T; for each neighbor image visual test images on the corresponding the training images, in addition to set T and obtain both visual similarity and semantic similarity of K2 neighbor images are combined into a set of P; using the set T and P, the importance of the allocation of each label in the test image annotation process.
【技术实现步骤摘要】
可同时挖掘视觉和语义相似性的图像标注方法
本专利技术涉及一种图像标注技术,特别是一种可同时挖掘视觉和语义相似性的基于KNN的图像标注方法。
技术介绍
随着网络图片呈现出爆炸式的增长,媒体数据库的规模也不断扩大。现如今,许多搜索引擎利用关键词检索图像,因此,如何为图像分配相关关键词成为了一个重要研究课题。然而,图像标注是一项具有挑战的任务。首先,在底层视觉特征和高层语义之间存在的语义鸿沟问题使得该任务变得十分困难。其次,早先所使用的人工标注是费时费力的,在大数据时代,利用人工标注显然是不现实的。近年来,为解决上述问题,研究者提出了各种各样的方法,如稀疏编码法、图学习法、决策树法等。然而,这些方法都不能解决由于人工标注的训练数据不足,导致不能完全利用图像的视觉和语义相似性的问题。而本专利技术所提出的方法可以很好地解决上述问题。
技术实现思路
本专利技术的目的在于提供一种可同时挖掘视觉和语义相似性的基于KNN的图像标注方法,该方法包括以下步骤:从图像集中获取训练图像子集;对测试图像在每个训练图像子集中获取K1各视觉近邻的图像并组成集合T;对测试图像的每个视觉近邻图像在其相应的训练图像子集中,获取除集合T外与其既视觉相似又语义相似的K2个近邻图像并组合成集合P;利用集合T和P,为每个标签在标注测试图像过程中分配其重要性。本专利技术与现有技术相比,具有以下优点:(1)本专利技术可以同时挖掘出图像的视觉和语义相似性,从而可以获取图像更全面的信息;(2)本专利技术可以使得网上下载的图像标签具有完整性且噪声小。下面结合说明书附图对本专利技术做进一步描述。附图说明图1是本专利技 ...
【技术保护点】
一种可同时挖掘视觉和语义相似性的图像标注方法,其特征在于,包括以下步骤:从图像集中获取训练图像子集;对测试图像在每个训练图像子集中获取K1各视觉近邻的图像并组成集合T;对测试图像的每个视觉近邻图像在其相应的训练图像子集中,获取除集合T外与其既视觉相似又语义相似的K2个近邻图像并组合成集合P;利用集合T和P,为每个标签在标注测试图像过程中分配其重要性。
【技术特征摘要】
1.一种可同时挖掘视觉和语义相似性的图像标注方法,其特征在于,包括以下步骤:从图像集中获取训练图像子集;对测试图像在每个训练图像子集中获取K1各视觉近邻的图像并组成集合T;对测试图像的每个视觉近邻图像在其相应的训练图像子集中,获取除集合T外与其既视觉相似又语义相似的K2个近邻图像并组合成集合P;利用集合T和P,为每个标签在标注测试图像过程中分配其重要性。2.根据权利要求1所述的方法,其特征在于,通过以下过程获取训练图像子集:步骤S101,建立图像集X={x1,x2,...,xn}∈Rn×d,其中xi∈Rd(1≤i≤n)为第i张图像,d为图像维数;步骤S102,建立一个包括c个标签的词典L={l1,l2,...,lc}∈{0,1}n×c;步骤S103,建立训练集T={(x1,y1),(x2,y2),...,(xn,yn)}用于表示成对的图像xi和该图像相应标签集yi,其中yi∈{0,1}c;步骤S104,若图像xi被第k个标签标记,则yi(k)=1,否则yi(k)=0;步骤S105,建立包含所有被同一标签li'标记的图像集合为训练图像子集。3.根据权利要求2所述的方法,其特征在于,获取集合T的具体过程为:步骤S201,对测试图像I,获取其与每个训练图像子集中的每一幅图像间的视觉距离;步骤S202,选取每一训练子集中与测试图像I最近邻的K1个图像形成集合TI,i”,i”∈[1,...,c];步骤S203,将测试图像I的所有最近邻图像合并为集合T,T={TI,1∪TI,2∪...∪TI,c}=∪i”∈[1,...,c]TI,i”。4.根据权利要求3所述的方法,其特征在于,获取集合P的具体过程为:步骤S301,将训练图像的每个子集Ti'中除测试图像I的最近邻图像集合TI,i”外的其它图像表示为TotherI,i”',i”'∈[1,...,c];步骤S302,获取集合TotherI,i”'中的每幅图像与集合TI,i”中的每幅图像间的视觉和语义的相似性S(j,k)=αD(xj,xk)+(1-α)...
【专利技术属性】
技术研发人员:唐金辉,李泽超,籍茜,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。