搜索成套图像的方法和设备技术

技术编号:8862454 阅读:189 留言:0更新日期:2013-06-28 01:39
一种搜索成套图像的方法和设备。所述方法,包括:接收第一图像;从图像数据库中搜索与第一图像相似和/或相同的第二图像,其中,数据库存储有从网络收集的图像以及图像所在的网页;从图像数据库获取每个第二图像所在的网页;根据所述网页获取至少一个套图集。根据本发明专利技术,可以根据输入的图像搜索到关联的成套图像。

【技术实现步骤摘要】

本专利技术涉及图像搜索领域,更具体地讲,涉及一种搜索成套图像的方法和设备
技术介绍
图像的表意性要远好于文本,图像可以帮助人们更迅速、更直观的获取信息。随着信息社会的发展,人们对于网络的依存度越来越高,对于在网络上进行图像获取的需求也越来越大。在现有技术条件下,用户通常需要输入文本关键字来进行图像的搜索,搜索出来的结果通常都是离散的。然而,随着人们对于网络信息需要的增加以及信息分享的增强,网络上的图像很多作为套图集而成套地出现。例如,网络上的很多关于新闻事件、教程(例如,菜谱、软件使用教程等)、游记、写真等的图像都是成套出现的。这些图集可能被别的网站转载、引用,在转载、引用时可能由于某些原因转得不完整,久而久之一套原本精心编辑的图集可能会变成一张张单独的图像,散落在互联网上,很多用户看到的只是其中的一两张,不连贯也不完整。因此,当用户拥有成套图像之一时,可能希望看到整套图像或者具有类似图像的整套图像。此外,网站也倾向于当用户在浏览某个图像时,将相应地套图提供给用户。因此,需要一种搜索成套图像的技术,以能够向用户提供套图集。
技术实现思路
本专利技术提供一种搜索成套图像的方法和设备,其能够根据输入的图像搜索出与该图像相关的套图集。本专利技术的一方面提供一种搜索成套图像的方法,包括:接收第一图像;从图像数据库中搜索与第一图像相似和/或相同的第二图像,其中,数据库存储有从网络收集的图像以及图像所在的网页;从图像数据库获取每个第二图像所在的网页;根据所述网页获取至少一个套图集。可选地,根据所述网页获取至少一个套图集的步骤包括:获取所述网页的至少一级深度的链接指向的第三图像;从第三图像之中选择面积大于预定阈值的第四图像;根据第四图像的网址的构成特征,对第四图像进行分组,以获得至少一个套图集。可选地,获取所述网页的至少一级深度的链接指向的第三图像的步骤包括:获取所述网页中的图像作为第三图像;当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第三图像。可选地,根据所述网页获取至少一个套图集的步骤还包括:选择面积波动率小于预定阈值的套图集。可选地,根据所述网页获取至少一个套图集的步骤还包括:选择图像数量大于预定阈值的套图集。可选地,面积波动率表示为S,其中,S= (Imax-1min)/lave,Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。可选地,所述方法还包括:根据下述因素中的至少一个因素从所述至少一个套图集中选择优选的套图集:关于套图集中的图像的描述文本与第一图像的描述文本之间的相关性、套图集中的图像的数量、套图集中的图像的平均面积、套图集中的图像的面积波动率、套图集中存在的不同的图像长宽比的数量、套图集所在站点权威度、套图集中的图像在互联网上的引用数、对套图集中的图像中是否存在人脸的识别结果、在套图集中的图像中识别出的水印的数量。本专利技术的另一方面提供一种搜索成套图像的设备,包括:接收单元,接收第一图像;图像搜索单元,从图像数据库中搜索与第一图像相似和/或相同的第二图像,其中,数据库存储有从网络收集的图像以及图像所在的网页;网页识别单元,从图像数据库获取每个第二图像所在的网页;套图集获取单元,根据所述网页获取至少一个套图集。可选地,套图集获取单元包括:网页图像获取单元,获取所述网页的至少一级深度的链接指向的第三图像;筛选单元,从第三图像之中选择面积大于预定阈值的第四图像;分组单元,根据第四图像的网址的构成特征,对第四图像进行分组,以获得至少一个套图集。可选地,网页图像获取单元获取所述网页中的图像作为第三图像,其中,当所述网页的至少一级深度的链接中存在表示翻页的链接时,网页图像获取单元获取表示翻页的链接所指向的网页中的图像作为第三图像。可选地,套图集获取单元还包括:选择单元,选择面积波动率小于预定阈值的套图集。可选地,选择单元还选择图像数量大于预定阈值的套图集。可选地,面积波动率表示为S,其中,S= (Imax-1min)/lave,Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。可选地,所述设备还包括:优选单元,根据下述因素中的至少一个因素从所述至少一个套图集中选择优选的套图集:关于套图集中的图像的描述文本与第一图像的描述文本之间的相关性、套图集中的图像的数量、套图集中的图像的平均面积、套图集中的图像的面积波动率、套图集中存在的不同的图像长宽比的数量、套图集所在站点权威度、套图集中的图像在互联网上的引用数、对套图集中的图像中是否存在人脸的识别结果、在套图集中的图像中识别出的水印的数量。本专利技术的另一方面提供一种在浏览图像时提供成套图像的方法,包括:获取当前正在浏览的图像作为第一图像;基于第一图像上述搜索成套图像的方法,以获取至少一个套图集;提供获取的至少一个套图集。根据本专利技术的搜索成套图像的方法和设备,可以根据输入的图像来搜索与输入的图像相关联的成套图像。此外,当用户在使用图像浏览器或者网络浏览器浏览图像时,图像浏览器或者网络浏览器可以利用本专利技术的方法/或设备,根据用户当前浏览的图像向用户提供与该图像相关联的成套图像。此外,当用户在某个网站浏览图像时,该网站也可以利用本专利技术的方法/或设备,根据用户当前浏览的图像向用户提供与该图像相关联的成套图像。附图说明通过下面结合附图进行的详细描述,本专利技术的上述和其它目的、特点和优点将会变得更加清楚,其中:图1示出根据本专利技术的示例性实施例的搜索成套图像的设备的框图。图2示出根据本专利技术的示例性实施例的套图集获取单元的框图。图3示出根据本专利技术的示例性实施例的搜索成套图像的方法的流程图。图4示出根据本专利技术的示例性实施例的获取至少一个套图集的步骤的流程图。具体实施例方式下面,将参照附图详细描述本专利技术的实施例。图1示出根据本专利技术的示例性实施例的搜索成套图像的设备的框图。如图1所示,根据本专利技术的搜索成套图像的设备100包括:接收单元110、图像搜索单元120、网页识别单元130、套图集获取单元140。接收单元110用于获取用于搜索成套图像的图像(以下,称为第一图像)。例如,可以由希望进行搜索成套图像的用户输入第一图像,或者用户当前正在浏览的图像也可以作为第一图像,从而可以通过本专利技术的搜索成套图像的设备100自动为用户提供与当前浏览的图像相关联的套图集。这里,一套成套图像称为套图集。图像搜索单元120从图像数据库中搜索与第一图像相似和/或相同的图像(以下,称为第二图像)。该数据库可存储有预先从网络(例如,互联网)收集或抓取的图像以及图像所在的网页。图像搜索单元120可从数据库中搜索与第一图像的相似度大于预定阈值的图像来作为第二图像。图像搜索单元120可以通过例如模式识别技术的各种现有技术的图像对比技术来搜索第二图像。网页识别单元130从图像数据库获取每个第二图像所在的网页。应该理解,由于一个第二图像有可能存在于多个网页中,因此,针对每个第二图像,网页识别单元130可获取至少一个网页。套图集获取单元140根据网页识别单元130获取的网页获取至少一个套图集。下面参照图2详细描述套图集获取单元1本文档来自技高网...

【技术保护点】
一种搜索成套图像的方法,包括:接收第一图像;从图像数据库中搜索与第一图像相似和/或相同的第二图像,其中,数据库存储有从网络收集的图像以及图像所在的网页;从图像数据库获取每个第二图像所在的网页;根据所述网页获取至少一个套图集。

【技术特征摘要】
1.一种搜索成套图像的方法,包括: 接收第一图像; 从图像数据库中搜索与第一图像相似和/或相同的第二图像,其中,数据库存储有从网络收集的图像以及图像所在的网页; 从图像数据库获取每个第二图像所在的网页; 根据所述网页获取至少一个套图集。2.根据权利要求1所述的方法,其中,根据所述网页获取至少一个套图集的步骤包括: 获取所述网页的至少一级深度的链接指向的第三图像; 从第三图像之中选择面积大于预定阈值的第四图像; 根据第四图像的网址的构成特征,对第四图像进行分组,以获得至少一个套图集。3.根据权利要求2所述的方法,其中,获取所述网页的至少一级深度的链接指向的第三图像的步骤包括: 获取所述网页中的图像作为第三图像; 当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第三图像。4.根据权利要求2所述的方法,其中,根据所述网页获取至少一个套图集的步骤还包括: 选择面积波动率小于预定阈值的套图集。5.根据权利要求4所述的方法,根据所述网页获取至少一个套图集的步骤还包括:选择图像数量大于预定阈值的套图集。6.根据权利要求4所述的方法,其中,面积波动率表示为S, 其中,S = (Imax-1min)/lave, Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。7.根据权利要求1所述的方法,还包括:根据下述因素中的至少一个因素从所述至少一个套图集中选择优选的套图集:关于套图集中的图像的描述文本与第一图像的描述文本之间的相关性、套图集中的图像的数量、套图集中的图像的平均面积、套图集中的图像的面积波动率、套图集中存在的不同的图像长宽比的数量、套图集所在站点权威度、套图集中的图像在互联网上的引用数、对套图集中的图像中是否存在人脸的识别结果、在套图集中的图像中识别出的水印的数量。8.一种搜索成套图像的设备,包括: 接收单元,接收第一图像; 图像搜索单元,从图像数据库中搜索与第一图像相似...

【专利技术属性】
技术研发人员:丁锐付晴川郭荣锋刘婷婷陶哲
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1