当前位置: 首页 > 专利查询>天津大学专利>正文

一种用于图像或视频搜索重排序的方法技术

技术编号:7662626 阅读:205 留言:0更新日期:2012-08-09 07:11
本发明专利技术公开了一种用于图像或视频搜索重排序的方法,搜索引擎中输入查询关键词进行搜索,获取基于文本的初始搜索结果S;根据所述初始搜索结果S提取不同模态下的特征向量,获取特征向量集合;根据所述初始搜索结果S对样本进行标注,获取标注后样本集合;对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量;将标注后样本集合的新特征向量作为训练集,获取排序模型;通过所述排序模型对特征向量集合的新特征向量进行排序,获取重排序后的最终结果。本发明专利技术通过合理利用检索结果与查询之间的相关程度信息,达到了有效利用数据信息、提高维数约简效果的目的,更好地将符合用户需求的结果靠前优先呈现给用户,提高了检索的准确性。

【技术实现步骤摘要】

本专利技术涉及面向多媒体信息检索领域,特别涉及。
技术介绍
随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信息的重要途径之一。图像或视频搜索重排序是根据初始的基于文本搜索结果结合其它的可利用的辅助信息训练排序模型,利用新的排序模型对检索结果重新排序的过程,其目的是为了改善检索的准确性以提高用户体验和满意度。利用标注信息进行图像或视频的重排序是目前主要的方法,其中标注信息的获取有多种途径,例如利用人工标注、伪相关反馈、隐相关反馈等。专利技术人在实现本专利技术的过程中,发现现有技术中存在以下不足现有技术中的基于标注的图像或视频搜索重排序方法通常对所提取出来的高维特征向量进行无监督的维数约简或者将图像或视频的相关性等级信息简单的作为类别标号信息进行有监督的维数约简,然而在图像或视频搜索重排序中图像或视频的类别标号并不能充分准确地描述图像与图像之间,或视频与视频之间的关系,进而使得训练出来的排序模型不够精确,使得检索精度较低,无法满足实际应用中的需要。
技术实现思路
本专利技术提供了,本专利技术提高了检索的精度,满足了实际应用中的多种需要,详见下文描述—种用于图像或视频搜索重排序的方法,所述方法包括以下步骤(I)搜索引擎中输入查询关键词进行搜索,获取基于文本的初始搜索结果S ;(2)根据所述初始搜索结果S提取不同模态下的特征向量,获取特征向量集合;(3)根据所述初始搜索结果S对样本进行标注,获取标注后样本集合;(4)对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量;(5)将标注后样本集合的新特征向量作为训练集,获取排序模型;(6)通过所述排序模型对特征向量集合的新特征向量进行排序,获取重排序后的最终结果。所述根据所述初始搜索结果S对样本进行标注,获取标注后样本集合具体为在所述初始搜索结果S中采用伪相关反馈或者人工标注等方法为每个相关性等级A、B、C标注k个样本,组成SA、SB、Sc三个标注样本集合,其余的为未标注样本集合。所述对所述特征向量集合、所述标注后样本集合进行处理,获取新特征向量具体为I)对特征向量集合进行中心化处理,获取中心化后特征向量集合;2)通过三个相关性等级A、B、C构建6个ηXη的零矩阵CM、CBB、Ccc, CAC、Cab, Cbc,对6个零矩阵进行赋值获取约束矩阵H ;3)通过新特征矩阵V、Y'和所述约束矩阵H构成同模态矩阵Cxx、Cyy与模态间矩阵之;4)通过所述模态矩阵Cxx、Cyy与所述模态间矩阵Gy获取矩阵Z,对所述矩阵Z进行奇异值分解,获取矩阵U和V ;5)分别取所述矩阵U和V的前d列组成矩阵, (d < min(p,q)),利用 %= = C-f,Wy= = CT^ 计算变换矩阵 Wj[、Wy,将(Wx)tX'和(Wy)tY'作为新特征向量。所述通过三个相关性等级A、B、C构建6个η X η的零矩阵CM、CBB, Ccc, Cac, Cab, Cbc,对6个零矩阵进行赋值获取约束矩阵H具体为对于标注后样本集合中任意两个样本X' i、X,」,若X' i、x,j) = I,同理若X' i e SA, X' j e Sc则Cac(i, j) = I,以此类推,所述约束矩阵H的计算公式如下H = E+ Y (CM+CBB + a Cab) - (I- Y ) (Ccc-Cac-Cbc),其中,参数Y用来权衡相关约束(CM+CBB + a Cab)与不相关约束(Ccc-Cac-Cbc)这两者的重要程度,参数Y的取值通常为,E表示nXn的单位矩阵,α用来权衡相关性等级为A的样本与相关性等级为B的样本之间的相关程度,α的取值通常为。所述Cxx = X' V T、Cyy = Y' V τ、Cv=X fiYr 0所述通过所述模态矩阵Cxx、Cyy与所述模态间矩阵Gy获取矩阵Ζ,对所述矩阵Z进行奇异值分解,获取矩阵U和V具体为通过所述模态矩阵cxx、cyy与所述模态间矩阵4获取τ= C-J2CxC-J2,将计算出来的所述Z矩阵进行奇异值分解,即Z = UDVt。本专利技术提供的技术方案的有益效果是本方法针对多媒体图像、视频数据特征维数很高以及容易引起“维数灾难”的特点,首次加入信息检索中存在的相关性等级信息来构造图像与图像之间,或视频与视频之间的相关约束对与不相关约束对信息,在利用少量的标注样本信息的同时,引入大量的未标注样本信息,设计适用排序学习中的半监督维数约简方法,利用检索结果与查询之间的相关程度信息,对传统的典型相关分析方法进行了改进,达到了有效利用数据信息、提高维数约简效果的目的,将符合用户需求的结果靠前优先呈现给用户,提高了检索的准确性。附图说明图I为本专利技术提供的的流程图;图2为本专利技术提供的获取新特征向量的示意 图3为本专利技术提供的排序性能对比的示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。为了提高检索的准确性,本专利技术实施例提供了,参见图1,详见下文描述多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息,包括数据的相关性等级信息、数据的优先级关系信息以及建立在排序信息之上的关系对、关系序列等信息。排序信息可以通过人工标注、相关反馈、伪相关反馈和隐相关反馈等途径获取。在信息检索领域中,相关性等级信息广泛应用于信息检索中的模型训练中,例如文本与多媒体检索、问答系统、视觉搜索重排序和协同过滤等。在大多数情况下,根据与查询的相关性高低手动地或自动地对每个文档进行不同等级的标注,例如“非常相关”、“相关”、“一般相关”和“不相关”等,这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。排序学习正是基于这种特殊标注的新研究领域,然而,排序学习仅仅是利用机器学习的方法学习更有效的排序模型,其侧重点在于学习的过程,并没有考虑到特征维数约简的问题。到目前为止,很少有工作把相关性等级信息用到维数约减过程中。样本的相关性等级信息不同于传统的类标号信息,前者是在信息检索中用来衡量文档与查询之间的相关程度的度量,后者指的是机器学习与模式识别领域中一类事物的所共同具有的属性。例如在传统的模式分类任务中,同一类的事物会具有共同的特征,不同类的事物具有不同的特征。传统的半监督典型相关分析方法利用正约束与负约束这种成对的约束信息进行降维,正约束与负约束均是基于类标号信息构造的成对约束项,前者指两个样本属于同一类,后者是指两个样本属于不同的两类。然而,在排序应用中,由于样本按照与查询相关的程度分为不同的相关性等级,这样即使不同相关性等级的样本之间,也可能由于与查询相关而存在不同程度的相关性,因此在传统降维方法中的正约束与负约束这种成对约束信息并不适合直接应用到排序问题中。然而,这些数据通常具有高维特性,直接对它们进行分析和处理会导致如下重要问题1)计算复杂度高;2)存储代价高昂;3)维数灾难。这成为严重制约多媒体内容分析和检索领域的关键问题。维数约简是有效解决这些问题的重要方法,其目标是通过对原始数据进行变换而得到的有效的低维表示。维数约简的定义为给定一批观察样本,记作X ={xj e RDXn,即包含η个样本,每个样本均是D维,Xi表示X集合中的第本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:冀中苏育挺井佩光
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1