搜索成套图像的方法和设备技术

技术编号:8862464 阅读:199 留言:0更新日期:2013-06-28 01:39
一种搜索成套图像的方法和设备。所述方法包括:接收第一图像;获取第一图像的套图集关联信息;根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。根据本发明专利技术可以根据输入的图像来搜索与输入的图像相关联的成套图像。

【技术实现步骤摘要】

本专利技术涉及图像搜索领域,更具体地讲,涉及一种搜索成套图像的方法和设备
技术介绍
图像的表意性要远好于文本,图像可以帮助人们更迅速、更直观的获取信息。随着信息社会的发展,人们对于网络的依存度越来越高,对于在网络上进行图像获取的需求也越来越大。在现有技术条件下,用户通常需要输入文本关键字来进行图像的搜索,搜索出来的结果通常都是离散的。然而,随着人们对于网络信息需要的增加以及信息分享的增强,网络上的图像很多作为套图集而成套地出现。例如,网络上的很多关于新闻事件、教程(例如,菜谱、软件使用教程等)、游记、写真等的图像都是成套出现的。此外,这些图集可能被别的网站转载、引用,在转载、引用时可能由于某些原因转得不完整,久而久之一套原本精心编辑的图集可能会变成一张张单独的图像,散落在互联网上,很多用户看到的只是其中的一两张,不连贯也不完整。因此,当用户拥有成套图像之一时,可能希望看到整套图像或者具有类似图像的整套图像。此外,网站也倾向于当用户在浏览某个图像时,将相应地套图提供给用户。此外,当用户在浏览某个套图集时,可能希望浏览相关联的其他套图集。因此,需要一种搜索成套图像的技术,以能够向用户提供套图集。
技术实现思路
本专利技术提供一种搜索成套图像的方法和设备,其能够根据输入的图像搜索出与该图像相关的套图集。本专利技术的一方面提供一种搜索成套图像的方法,包括:接收第一图像;获取第一图像的套图集关联信息;根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。可选地,获取第一图像的套图集关联信息的步骤包括:从预先获得的多个套图集中确定第一图像所在的套图集;获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。可选地,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤:根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类;根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。可选地,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤:根据预先获得的多个套图集的关键词来确定套图集之间的关联性;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。可选地,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,仅获取具有与第一图像形成连通的图像的套图集的信息。可选地,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,仅获取在确定的套图集之中的至少具有所述至少一个关键词之一的套图集的信息。可选地,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词,其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。可选地,所述方法还包括:从获取的至少一个套图集中筛选套图集的步骤:根据图像浏览历史记录,获取先前浏览的图像的关键词;根据浏览频率对从获取的关键词进行排序;从高到低选取预定数量的关键词;从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。可选地,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,根据套图集的质量对套图集进行排序。可选地,通过下述步骤预先获得多个套图集:抓取预定数量的网页;获取所述网页的至少一级深度的链接指向的第二图像;从第二图像之中选择面积大于预定阈值的第三图像;根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。可选地,获取所述网页的至少一级深度的链接指向的第二图像的步骤包括:获取所述网页中的图像作为第二图像;当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第二图像。可选地,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。可选地,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。面积波动率可表示为S,其中,S= (Imax-1min)/lave,Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。可选地,所述方法还包括:确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。根据本专利技术另一方面,提供一种搜索成套图像的设备,包括:接收单元,接收第一图像;信息获取单元,获取第一图像的套图集关联信息;套图集获取单元,根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。可选地,关联信息获取单元包括:套图集确定单元,从预先获得的多个套图集中确定第一图像所在的套图集;关联信息获取单元,获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。可选地,关联信息获取单元包括:聚类单元,根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类;第一关联性确定单元,根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通;第一关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。可选地,关联信息获取单元包括:第二关联性确定单元,根据预先获得的多个套图集的关键词来确定套图集之间的关联性;第二关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。可选地,当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,第一关联性提取单元仅获取具有与第一图像形成连通的图像的套图集的信本文档来自技高网...

【技术保护点】
一种搜索成套图像的方法,包括:接收第一图像;获取第一图像的套图集关联信息;根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。

【技术特征摘要】
1.一种搜索成套图像的方法,包括: 接收第一图像; 获取第一图像的套图集关联信息; 根据套图集关联信息获取至少一个套图集, 其中,套图关联信息表示与第一图像相关的套图集的信息。2.根据权利要求1所述的方法,其中,获取第一图像的套图集关联信息的步骤包括: 从预先获得的多个套图集中确定第一图像所在的套图集; 获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。3.根据权利要求2所述的方法,其中,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤: 根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类; 根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通; 根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。4.根据权利要求2或3所述的方法,其中,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行 下述步骤: 根据预先获得的多个套图集的关键词来确定套图集之间的关联性;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。5.根据权利要求3所述的方法,其中,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,仅获取具有与第一图像形成连通的图像的套图集的信息。6.根据权利要求4所述的方法,其中,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,仅获取在确定的套图集之中的至少具有所述至少一个关键词之一的套图集的信肩、O7.根据权利要求4所述的方法,其中,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词, 其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。8.根据权利要求1所述的方法,还包括:从获取的至少一个套图集中筛选套图集的步骤: 根据图像浏览历史记录,获取先前浏览的图像的关键词;根据浏览频率对从获取的关键词进行排序; 从高到低选取预定数量的关键词; 从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。9.根据权利要求8所述的方法,其中,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,根据套图集的质量对套图集进行排序。10.根据权利要求2所述的方法,其中,通过下述步骤预先获得多个套图集: 抓取预定数量的网页; 获取所述网页的至少一级深度的链接指向的第二图像; 从第二图像之中选择面积大于预定阈值的第三图像; 根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。11.根据权利要求10所述的方法,其中,获取所述网页的至少一级深度的链接指向的第二图像的步骤包括: 获取所述网页中的图像作为第二图像; 当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第二图像。12.根据权利要求10所述的方法,其中,预先获得多个套图集的步骤还包括: 从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。13.根据权利要求10或12所述的方法,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。14.根据权利要求12所述的方法,其中,面积波动率表示为S, 其中,S = (Imax-1min)/lave, Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。15.根据权利要求10所述的方法,还包括:确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。16.一种搜索成套图像的设备,包括: 接收单元,接收第一图像; 信息获取单元,获取第一图像的套图集关联信息; 套图...

【专利技术属性】
技术研发人员:郭荣锋陶哲丁锐宁贵文
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1