【技术实现步骤摘要】
本专利技术涉及互联网搜索
,尤其涉及一种用于配对图片搜索的方法和提供配对图片的搜索系统。
技术介绍
在互联网的图片资源中,部分图片是以配对的形式向用户展现的。用户可以通过搜索引擎输入关键词进行配对图片的搜索,通过用户搜索行为的统计分析得出在图片配对的需求占总需求量的0. 9%。现有技术中,由于检索系统构架和通用流程等问题,配对图片是分散的,不满足用户需求,用户体验差。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的第一个目的在于提出一种可将搜索结果按照连续配对的方式反馈给用户以提升用户体验的用于配对图片搜索的方法。本专利技术的第二个目的在于提出一种用于配对图片搜索的系统。为了实现上述目的,本专利技术的第一方面实施例的用于配对图片搜索的方法包括以下步骤搜索系统根据搜索信息从各个原始站点抓取源站点网页;从所述抓取的源站点网页中获得所述源站点网页中的图片;按照所述原始站点对获得的所述图片进行聚类以生成多个已收录站点图片集;对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片。根据本专利技术实施例的用于配对图片搜索的方法,搜索系统对已收录站点图片集中的图片进行匹配分析生成多个配对图片之后,根据用户的搜索要求将结果按照连续配对的方式反馈给用户,满足用户需求,提升用户体验。为了实现上述目的,本专利技术的第二方面实施例的用于提供配对图片的搜索系统包括抓取装置,用于根据搜索信息从各个原始站点抓取源站点网页;匹配处理装置,用于从所述抓取的源站点网页中获得所述 ...
【技术保护点】
【技术特征摘要】
1.一种用于配对图片搜索的方法,其特征在于,包括以下步骤 搜索系统根据搜索信息从各个原始站点抓取源站点网页; 从所述抓取的源站点网页中获得所述源站点网页中的图片; 按照所述原始站点对获得的所述图片进行聚类以生成多个已收录站点图片集; 对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片;以及 所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片。2.如权利要求I所述的用于配对图片搜索的方法,其特征在于,所述对每个所述已收录站点图片集中的图片进行匹配分析以生成多个配对图片还包括 对所述源站点网页进行分析以生成源站点图片集; 获取所述源站点网页中的HTML格式文件和CSS格式文件; 根据所述HTML格式文件中的各个标签建立DOM-Tree ; 根据所述CSS格式文件和所述DOM-Tree分析所述源站点图片集中图片在所述源站点网页中的位置以获得所述源站点图片集中图片的位置信息; 根据所述位置信息对所述已收录站点图片集中的图片进行匹配分析。3.如权利要求2所述的用于配对图片搜索的方法,其特征在于,所述根据位置信息对所述已收录站点图片集中的图片进行匹配分析进一步包括 根据所述位置信息获得所述已收录站点图片集中每个图片的位置信息; 根据所述已收录站点图片集生成所述已收录站点图片集在所述源站点网页中对应的第一范围; 根据所述源站点图片集和所述第一范围获得所述第一范围内的所有图片; 计算所述第一范围内的所有图片之间的第一平均间隔,并根据所述第一平均间隔及预设的比例将所述第一范围扩大至第二范围; 对所述已收录站点图片集中的属于所述第二范围的图片进行匹配分析。4.如权利要求3所述的用于配对图片搜索的方法,其特征在于,所述对所述已收录站点图片集中的属于所述第二范围的图片进行匹配分析进一步包括 去除所述第二范围内不满足要求的图片,并再次计算所述第二范围内图片的第二平均间隔; 根据所述第二平均间隔及预设的比例将所述第二范围扩大至第三范围; 计算属于所述第三范围内图片之间的匹配度; 根据所述匹配度确定所述第三范围内的配对图片;以及 如果所述确定的配对图片均属于所述已收录站点图片集,则将所述配对图片作为所述已收录站点图片集中的配对图片并保存。5.如权利要求3所述的用于配对图片搜索的方法,其特征在于,还包括 计算所述第一范围内图片的数量,如果所述第一范围内图片的数量小于预设值,则过滤所述第一范围内所有图片。6.如权利要求3所述的用于配对图片搜索的方法,其特征在于,还包括 将所述第一范围内不满足图片大小要求的图片去除。7.如权利要求4所述的用于配对图片搜索的方法,其特征在于,还包括 判断所述第二范围内超链接的数量是否大于阈值;如果大于所述阈值,则过滤所述第二范围内的所有图片。8.如权利要求4所述的用于配对图片搜索的方法,其特征在于,所述匹配度通过位置关系权重值、颜色相似度权重值、图片大小权重值、图片显著区域相似度权重值、图片背景区域相似度权重值、图片连续性权重值中的一种或多种计算得到。9.如权利要求I所述的用于配对图片搜索的方法,其特征在于,所述搜索系统包括多级搜索模块,且所述配对图片 保存在配对字典之中,其中,中级搜索模块与多个下级搜索模块相连,上级搜索模块与多个中级搜索模块相连。10.如权利要求9所述的用于配对图片搜索的方法,其特征在于,所述搜索系统根据用户的搜索要求为所述用户提供相应的配对图片进一步包括 所述下级搜索模块根据所述搜索要求生成初级搜索结果; 所述下级搜索模块从所述初级搜索结果中选择属于所述配对字典的图片,并对选择的所述图片的相关性信息进行加权提档处理; 所述下级搜索模块按照图片的相关性信息将预定数目的图片上传至所述中级搜索模块; 所述中级搜索模块将所述多个下级搜索模块发送的图片加入至中间配对字典之中,并对经过所述下级搜索模块加权提档处理的图片进行恢复降档处理; 所述中级搜索模块对所述中间配对字典中成对的图片进行加权提档处理,并按照图片的相关性信息将预定数目的图片上传至所述上级搜索模块;以及 所述上级搜索模块对所述多个中级搜索模块上传的图片进行重新排序,将成对的图片的显示位置提前并做相邻处理。11.一种用于提供配对图片的搜索系统,其特征在于,包括 抓取装置,用于根据搜索信息从各个原始站点抓取源站点网页; 匹配处理装置,用于...
【专利技术属性】
技术研发人员:李靖,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。