用于配对图片搜索的方法和提供配对图片的搜索系统技术方案

技术编号:7786526 阅读:112 留言:0更新日期:2012-09-21 07:35
本发明专利技术提出一种用于配对图片搜索的方法和系统,其中所述方法包括以下步骤:搜索系统根据搜索信息从各个原始站点抓取源站点网页;从抓取的源站点网页中获得源站点网页中的图片;按照原始站点对获得的图片进行聚类以生成多个已收录站点图片集;对每个已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及搜索系统根据用户的搜索要求为用户提供相应的配对图片。根据本发明专利技术实施例的方法,搜索系统对已收录站点图片集中的图片进行匹配分析生成多个配对图片之后,根据用户的搜索要求将结果按照连续配对的方式反馈给用户,满足用户需求,提升用户体验。

【技术实现步骤摘要】

本专利技术涉及互联网搜索
,尤其涉及一种用于配对图片搜索的方法和提供配对图片的搜索系统
技术介绍
在互联网的图片资源中,部分图片是以配对的形式向用户展现的。用户可以通过搜索引擎输入关键词进行配对图片的搜索,通过用户搜索行为的统计分析得出在图片配对的需求占总需求量的0. 9%。现有技术中,由于检索系统构架和通用流程等问题,配对图片是分散的,不满足用户需求,用户体验差。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的第一个目的在于提出一种可将搜索结果按照连续配对的方式反馈给用户以提升用户体验的用于配对图片搜索的方法。本专利技术的第二个目的在于提出一种用于配对图片搜索的系统。为了实现上述目的,本专利技术的第一方面实施例的用于配对图片搜索的方法包括以下步骤搜索系统根据搜索信息从各个原始站点抓取源站点网页;从所述抓取的源站点网页中获得所述源站点网页中的图片;按照所述原始站点对获得的所述图片进行聚类以生成多个已收录站点图片集;对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片。根据本专利技术实施例的用于配对图片搜索的方法,搜索系统对已收录站点图片集中的图片进行匹配分析生成多个配对图片之后,根据用户的搜索要求将结果按照连续配对的方式反馈给用户,满足用户需求,提升用户体验。为了实现上述目的,本专利技术的第二方面实施例的用于提供配对图片的搜索系统包括抓取装置,用于根据搜索信息从各个原始站点抓取源站点网页;匹配处理装置,用于从所述抓取的源站点网页中获得所述源站点网页中的图片,并按照所述原始站点对获得的所述图片进行聚类以生成多个已收录站点图片集,以及对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及搜索提供装置,用于根据用户的搜索要求为所述用户提供相应的配对图片。根据本专利技术实施例的用于提供配对图片的搜索系统,通过匹配处理装置对已收录站点图片集中的图片进行匹配分析以生成多个配对图片,然后搜索提供装置根据用户的搜索要求将结果按照通过提供模块以连续配对的方式反馈给用户,满足用户需求,提升用户体验。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中图I是根据本专利技术一个实施例的用于配对图片搜索的方法的流程图;图2是根据本专利技术一个实施例的用于配对图片搜索的方法的流程图;图3是根据本专利技术一个实施例的用于配对图片搜索的方法的流程图;图4是根据本专利技术一个实施例的用于配对图片搜索的方法的示意图; 图5是根据本专利技术一个实施例的用于配对图片搜索的方法的流程图;图6是根据本专利技术一个实施例的用于配对图片搜索的方法的流程图;图7是根据本专利技术一个实施例的用于提供配对图片的搜索系统的结构框图;图8是根据本专利技术一个实施例的用于提供配对图片的搜索系统的结构框图;图9是根据本专利技术实施例的匹配分析模块的结构框图;图10是根据本专利技术实施例的匹配分析模块的结构框图;以及图11是根据本专利技术一个实施例的用于提供配对图片的搜索系统的结构框图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术而不是要求本专利技术必须以特定的方位构造和操作,因此不能理解为对本专利技术的限制。下面参考说明书附图描述根据本专利技术实施例的用于配对图片搜索的方法。一种用于配对图片搜索的方法,包括以下步骤搜索系统根据搜索信息从各个原始站点抓取源站点网页;从抓取的源站点网页中获得源站点网页中的图片;按照原始站点对获得的图片进行聚类以生成多个已收录站点图片集;对每个已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及搜索系统根据用户的搜索要求为用户提供相应的配对图片。图I为本专利技术一个实施例的用于配对图片搜索的方法的流程图。如图I所示,根据本专利技术实施例的用于配对图片搜索的方法包括下述步骤。步骤S101,搜索系统根据搜索信息从各个原始站点抓取源站点网页。其中,配对图片对应的原始站点数据集中且文本特征显明,原始站点的网页数据段中包括重要的数据字段如alt和title等,搜索信息可包括关键词和阈值等。具体地,首先搜索系统将多个关键词与重要的数据字段的文本内容进行匹配,获取多个关键词的适应权重w_offset,然后根据适应权重w_offset和多个关键词权重w_query计算匹配权值w_final,例如 w_final = (max_offset-offset) / (max_offset) *w_offset+w_query,其中max_offset为多个关键词中的最大适用值,offset为平均适应值,搜索系统将匹配权值w_final与设置的阈值比较,如果匹配权值w_final大于所设置的阈值,则搜索系统判断命中该站点并抓取该站点相应的源站点图片。 其中,关键词可以包括配对、对称、一对、两张、男女、左右、一左一右、一男一女、一组、分开和卡通动漫等。在实际的抓取过程中可能获取不满足要求的配对图片,例如在进行情侣头像的配对中抓取女女或者男男的配对图,此时可以设置对原始站点进行降权处理的关键词,例如,姐妹、男生、男孩、女生和女孩等。步骤S102,从抓取的源站点网页中获得源站点网页中的图片。步骤S103,按照原始站点对获得的图片进行聚类以生成多个已收录站点图片集。具体地,将属于一个原始站点的图片汇聚到一个类中,然后生成多个已收录站点图片集。其中,已收录站点图片集是被搜索系统所收录的,源站点图片集中包括被搜索系统收录的图片和未被搜索系统收录的图片。步骤S104,对每个已收录站点图片集中的图片进行匹配分析以生成多个配对图片。步骤S105,搜索系统根据用户的搜索要求为用户提供相应的配对图片。根据本专利技术实施例的用于配对图片搜索的方法,搜索系统对已收录站点图片集中的图片进行匹配分析生成多个配对图片之后,根据用户的搜索要求将结果按照连续配对的方式反馈给用户,满足用户需求,提升用户体验。图2为本专利技术一个实施例的用于配对图片搜索的方法的流程图。如图2所示,根据本专利技术实施例的用于配对图片搜索的方法包括下述步骤。步骤S201,搜索系统根据搜索信息从各个原始站点抓取源站点网页。 步骤S202,从抓取的源站点网页中获得源站点网页中的图片。步骤S203,按照原始站点对获得的图片进行聚类以生成多个已收录站点图片集。步骤S204,对源站点网页进行分析以生成源站点图片集。步骤S205,获取源站点网页中的HTML格式文件和CSS格式文件。步骤S206,根据HTML格式文件中的各个标签建立DOM-Tree。步骤S207,根据CSS格式文件和DOM-Tree分析源站点图片集中图片在源站点网页中的位置以获得源站点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于配对图片搜索的方法,其特征在于,包括以下步骤 搜索系统根据搜索信息从各个原始站点抓取源站点网页; 从所述抓取的源站点网页中获得所述源站点网页中的图片; 按照所述原始站点对获得的所述图片进行聚类以生成多个已收录站点图片集; 对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及 所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片。2.如权利要求I所述的用于配对图片搜索的方法,其特征在于,所述对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片还包括 对所述源站点网页进行分析以生成源站点图片集; 获取所述源站点网页中的HTML格式文件和CSS格式文件; 根据所述HTML格式文件中的各个标签建立DOM-Tree ; 根据所述CSS格式文件和所述DOM-Tree分析所述源站点图片集中图片在所述源站点网页中的位置以获得所述源站点图片集中图片的位置信息; 根据所述位置信息对所述已收录站点图片集中的图片进行匹配分析。3.如权利要求2所述的用于配对图片搜索的方法,其特征在于,所述根据位置信息对所述已收录站点图片集中的图片进行匹配分析进一步包括 根据所述位置信息获得所述已收录站点图片集中每个图片的位置信息; 根据所述已收录站点图片集生成所述已收录站点图片集在所述源站点网页中对应的第一范围; 根据所述源站点图片集和所述第一范围获得所述第一范围内的所有图片; 计算所述第一范围内的所有图片之间的第一平均间隔,并根据所述第一平均间隔及预设的比例将所述第一范围扩大至第二范围; 对所述已收录站点图片集中的属于所述第二范围的图片进行匹配分析。4.如权利要求3所述的用于配对图片搜索的方法,其特征在于,所述对所述已收录站点图片集中的属于所述第二范围的图片进行匹配分析进一步包括 去除所述第二范围内不满足要求的图片,并再次计算所述第二范围内图片的第二平均间隔; 根据所述第二平均间隔及预设的比例将所述第二范围扩大至第三范围; 计算属于所述第三范围内图片之间的匹配度; 根据所述匹配度确定所述第三范围内的配对图片;以及 如果所述确定的配对图片均属于所述已收录站点图片集,则将所述配对图片作为所述已收录站点图片集中的配对图片并保存。5.如权利要求3所述的用于配对图片搜索的方法,其特征在于,还包括 计算所述第一范围内图片的数量,如果所述第一范围内图片的数量小于预设值,则过滤所述第一范围内所有图片。6.如权利要求3所述的用于配对图片搜索的方法,其特征在于,还包括 将所述第一范围内不满足图片大小要求的图片去除。7.如权利要求4所述的用于配对图片搜索的方法,其特征在于,还包括 判断所述第二范围内超链接的数量是否大于阈值;如果大于所述阈值,则过滤所述第二范围内的所有图片。8.如权利要求4所述的用于配对图片搜索的方法,其特征在于,所述匹配度通过位置关系权重值、颜色相似度权重值、图片大小权重值、图片显著区域相似度权重值、图片背景区域相似度权重值、图片连续性权重值中的一种或多种计算得到。9.如权利要求I所述的用于配对图片搜索的方法,其特征在于,所述搜索系统包括多级搜索模块,且所述配对图片 保存在配对字典之中,其中,中级搜索模块与多个下级搜索模块相连,上级搜索模块与多个中级搜索模块相连。10.如权利要求9所述的用于配对图片搜索的方法,其特征在于,所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片进一步包括 所述下级搜索模块根据所述搜索要求生成初级搜索结果; 所述下级搜索模块从所述初级搜索结果中选择属于所述配对字典的图片,并对选择的所述图片的相关性信息进行加权提档处理; 所述下级搜索模块按照图片的相关性信息将预定数目的图片上传至所述中级搜索模块; 所述中级搜索模块将所述多个下级搜索模块发送的图片加入至中间配对字典之中,并对经过所述下级搜索模块加权提档处理的图片进行恢复降档处理; 所述中级搜索模块对所述中间配对字典中成对的图片进行加权提档处理,并按照图片的相关性信息将预定数目的图片上传至所述上级搜索模块;以及 所述上级搜索模块对所述多个中级搜索模块上传的图片进行重新排序,将成对的图片的显示位置提前并做相邻处理。11.一种用于提供配对图片的搜索系统,其特征在于,包括 抓取装置,用于根据搜索信息从各个原始站点抓取源站点网页; 匹配处理装置,用于...

【专利技术属性】
技术研发人员:李靖
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1