当前位置: 首页 > 专利查询>天津大学专利>正文

用于图像检索的基于流形正则化的半监督排序学习方法技术

技术编号:8105752 阅读:306 留言:0更新日期:2012-12-21 04:32
本发明专利技术公开了一种用于图像检索的基于流形正则化的半监督排序学习方法,从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合;对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0,2表示与查询非常相关,1表示一般相关,0表示不相关;计算未标注图像样本的伪相关等级信息yi;计算两个图像样本之间的距离;通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项;通过所述拉普拉斯流形正则化项构造目标函数;求解所述目标函数获取各个图像样本的排序分数,把排序后的结果反馈给用户。本发明专利技术提高了检索与排序性能,充分利用了标注信息,提高了检索精度,能够有效地利用少量的监督信息提高排序性能。

【技术实现步骤摘要】

本专利技术涉及面向多媒体信息检索领域,尤其涉及一种。
技术介绍
随着信息技术的快速发展,图像和视频等多媒体资源迅速增长,图像和视频由于含有丰富、直观和有趣的信息,已成为人们获取信息的重要途径之一。如何从海量的数据中快速准确地获取用户所需的信息是一项具有挑战性的工作。现有的商业搜索引擎对图像或视频的检索主要是通过检索图像或视频所在网页的文本信息。然而,有限的文本信息并不能充分描述图像或视频的丰富内容,也不能准确描述出图像或视频与查询的相关程度。此夕卜,文本描述与图像或视频之间可能存在着误匹配。因此,基于内容的图像或视频检索引起越来越多的关注。 基于内容的图像或视频检索是通过对图像内容进行分析,提取图像或视频的视觉特征,从数据库中查找到具有指定特征或含有特定内容的图像或视频。排序学习技术正逐渐应用到图像或视频检索中,并成为其中的核心技术。排序学习是利用排序信息结合机器学习的方法学习更有效的排序模型,其侧重点在于学习的过程。多媒体检索相关领域数据中存在着大量排序信息。排序信息是指排序学习中的训练数据集合所提供的可用于学习排序模型的监督信息,包括数据的相关性等级信息、数据的优先级关系信息以及建立其上的关系对和关系序列等信息。利用标注信息进行图像或视频的重排序是目前主要的方法之一,标注信息可以通过人工标注、相关反馈、伪相关反馈和隐相关反馈等途径获取。其中,相关性等级信息广泛应用于信息检索的模型训练中。在大多数情况下,根据与查询的相关性高低手动地或自动地对每个文档进行不同等级的标注,例如“非常相关”、“一般相关”和“不相关”等,这些描述样本与查询相关程度的度量叫做样本的相关性等级信息。在排序学习中存在着视觉一致性假设。视觉一致性假设是指视觉相似的图像其排序分数也应该比较接近,因此应该排在相近的位置;反之,视觉上不相似的样本不应该排在一起。一些正则化技术常常用于构建视觉一致性假设。流形正则化则是将流形学习与正则化技术相结合的一种技术。专利技术人在实现本专利技术的过程中,发现现有技术中至少存在以下问题I)现有的排序学习通常是监督型,即仅仅利用标注的样本训练排序模型,并没有利用广泛存在的未标注样本,不利于检索与排序性能的进一步提升;2)半监督的排序学习方法,很少直接通过流形学习的方法引入未标注的样本或者流形学习都是基于传统的相似性测度计算,并没有在相似性计算过程中引入样本的标注信息,不利于标注信息的充分利用,使得检索精度不高
技术实现思路
本专利技术提供了一种用于图像检索的基于流形正则化的半监督排序学习法,本专利技术提闻了检索与排序性能,充分利用了标注 目息,提闻了检索精度,详见下文描述一种,所述方法包括以下步骤(I)从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合;(2)对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、I和0,2表不与查询非常相关,I表不一般相关,O表不不相关; (3)计算未标注图像样本的伪相关等级信息Yi ;(4)计算两个图像样本之间的距离;(5)通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项;(6)通过所述拉普拉斯流形正则化项构造目标函数;(7)求解所述目标函数获取各个图像样本的排序分数,把排序后的结果反馈给用户。所述计算未标注图像样本的伪相关等级信息Ii具体包括I)计算重构系数ciJ;对未标注图像样本集合Xu中的每一个图像样本Xi,在标注图像样本集合中选择前kl近邻图像样本作为所述图像样本Xi的近邻样本,所述图像样本Xi由kl近邻图像样本重构所得到的重构系数Cij I2min ..V, - V xi^uj 二j上述最小化有两个限制1)若Xj不是Xi的kl个近邻点之一,则Cij=O ;2)/YjCij =1; J=I2)通过所述重构系数Cu计算伪相关等级信息Yi ;通过每个未标注图像样本的所述重构系数得到重构向量Ci ;Ci= ,伪相关等级信息 Ii 为其中,Yj是标注图像样本Xj相应的标号,1+1彡i彡η。所述计算两个图像样本之间的距离具体包括;I)当两个图像样本都是标注图像样本时,获取对应的相关性等级标号,计算两个图像样本之间的距离;2)当两个图像样本都是未标注图像样本时,通过所述伪相关等级信息计算两个图像样本之间的距离;3)当一个图像样本是标注图像样本,另一个是未标注图像样本时,通过相关性等级标号和所述伪相关等级信息计算两个图像样本之间的距离。所述通过两个图像样本之间的距离构造拉普拉斯流形正则化项具体包括I)计算两个图像样本之间的相似度Am ; 对任意两个图像样本若Xp是Xtl的k2个近邻点之一或Xq是Xp的k2近邻点 之一,则两个图像样本之间的相似度计算公式如下权利要求1.一种,其特征在于,所述方法包括以下步骤 (1)从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合; (2)对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、I和O,2表示与查询非常相关,I表示一般相关,O表示不相关; (3)计算未标注图像样本的伪相关等级信息yi; (4)计算两个图像样本之间的距离; (5)通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项; (6)通过所述拉普拉斯流形正则化项构造目标函数; (7)求解所述目标函数获取各个图像样本的排序分数,把排序后的结果反馈给用户。2.根据权利要求I所述的一种,其特征在于,所述计算未标注图像样本的伪相关等级信息Ji具体包括 1)计算重构系数cij; 对未标注图像样本集合Xu中的每一个图像样本Xi,在标注图像样本集合\中选择前kl近邻图像样本作为所述图像样本Xi的近邻样本,所述图像样本Xi由kl近邻图像样本重构所得到的重构系数cij:3.根据权利要求2所述的一种,其特征在于,所述计算两个图像样本之间的距离具体包括; 1)当两个图像样本都是标注图像样本时,获取对应的相关性等级标号,计算两个图像样本之间的距离; 2)当两个图像样本都是未标注图像样本时,通过所述伪相关等级信息计算两个图像样本之间的距离; 3)当一个图像样本是标注图像样本,另一个是未标注图像样本时,通过相关性等级标号和所述伪相关等级信息计算两个图像样本之间的距离。4.根据权利要求3所述的一种,其特征在于,所述通过两个图像样本之间的距离构造拉普拉斯流形正则化项具体包括 O计算两个图像样本之间的相似度Am ;对任意两个图像样本Xp、Xq7若Xp是XtJ的k2个近邻点之一或Xq是Xp的k2近邻点之 一,则两个图像样本之间的相似度计算公式如下5.根据权利要求4所述的一种,其特征在于,所述目标函数项具体为全文摘要本专利技术公开了一种,从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合;对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0,2表示与查询非常相关,1表示一般相关,0表示不相关;计算未标注图像样本的伪相关等级信息yi;计算两个图像样本之间的距离;通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项;通过所述拉普拉斯流形正则化项构造目标函数;求解所述目标函数获取各个图像样本的排序分数,把排序后的结果反馈给用户。本专利技术提高了检索与排序性能,充分利用了标注信息,提高了检索精度,能够有效地本文档来自技高网
...

【技术保护点】
一种用于图像检索的基于流形正则化的半监督排序学习方法,其特征在于,所述方法包括以下步骤:(1)从数据库或者初始基于文本的网络搜索结果中提取视觉特征组成图像样本集合;(2)对所述图像样本集合按照与查询主题相关性的程度划分为三个等级2、1和0,2表示与查询非常相关,1表示一般相关,0表示不相关;(3)计算未标注图像样本的伪相关等级信息yi;(4)计算两个图像样本之间的距离;(5)通过所述两个图像样本之间的距离构造拉普拉斯流形正则化项;(6)通过所述拉普拉斯流形正则化项构造目标函数;(7)求解所述目标函数获取各个图像样本的排序分数,把排序后的结果反馈给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:冀中苏育挺井佩光
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1