候选页面集合的生成方法及装置制造方法及图纸

技术编号:15690875 阅读:42 留言:0更新日期:2017-06-24 03:37
本发明专利技术提供一种候选页面集合的生成方法及装置,该生成方法包括:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。通过本发明专利技术生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。

Method and device for generating candidate page set

The present invention provides a method and a device for generating candidate set of pages, including the generation method: capture and analyze multiple web pages, to obtain attribute information and text information of each page; according to the text information each page is divided into several categories according to the attribute of each page of the letter; separately determine the \meet the candidate page the default set of conditions; each page will meet the preset conditions of the set of candidate pages are stored in categories, each category of the set of candidate pages. The candidate pages generated by the invention set, can ensure the timeliness of the candidate pages at the same time, can also ensure that the recall rate of candidate pages and accuracy, and ensure the recall at the same time scale of only millions of magnitude, which can effectively solve the problem of network spider technology required for processing large amounts of data in, need to consume a large amount of the problem of time, so as to improve the efficiency of network spider crawling.

【技术实现步骤摘要】
候选页面集合的生成方法及装置
本专利技术是关于信息搜索技术,具体地,是关于一种候选页面集合的生成方法及装置。
技术介绍
搜索引擎对于互联网上出现的实时热点需要第一时间发现和收录。搜索引擎蜘蛛有一个庞大的URL(UniformResourceLocator,统一资源定位符)库,规模达到数千亿甚至上万亿量级。网络蜘蛛所有的抓取都从这个URL库出发,即从URL库中挑选出一批URL,对这批URL实施抓取,从中发现新链接再添加到URL库中。热点链接就是从中被发现并通过下次选取抓取和收录的。但是,因为网络蜘蛛所处理的数据量过于庞大,需要消耗大量的时间,把全部链接挑一遍再抓一遍很难保证所有的热点都能在第一时间被发现和收录。因此,如何能使网络蜘蛛找出一个精简但又覆盖完整的候选页面集合,是目前亟待解决的问题。
技术实现思路
本专利技术实施例的主要目的在于提供一种候选页面集合的生成方法及装置,以克服上述问题,从而提高网页抓取的效率。为了实现上述目的,本专利技术实施例提供一种候选页面集合的生成方法,该生成方法包括:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。在一实施例中,在将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合之后,该生成方法还包括:判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合。进一步地,该生成方法还包括:当候选页面集合中的网页不满足停止条件时,返回抓取并分析多个网页,分别获取各网页的属性信息及正文信息。在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,具体包括:将每个网页的链接与已存储网页的链接进行比对,以确定网页中新链接的数量;判断新链接的数量是否满足候选页面集合中新链接数量的条件。进一步地,判断新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:判断新链接的数量是否大于或等于一第一预设数值;如果是,则新链接的数量满足候选页面集合中新链接数量的条件。在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,进一步包括:根据一索引筛选条件确定新链接中符合索引条件的链接的数量;判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。进一步地,判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条,具体包括:判断新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;如果是,则新链接中符合索引条件的链接的数量满足候选页面集合中符合索引条件链接数量的条件。在一实施例中,上述的根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件,进一步包括:将新链接中符合索引条件的链接按照URL进行归类;判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。进一步地,判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件,具体包括:判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各初步筛选网页满足预设的候选页面集合条件。本专利技术实施例还提供一种候选页面集合的生成装置,该生成装置包括:网页抓取单元,用于抓取并分析多个网页,分别获取各网页的属性信息及正文信息;类别划分单元,用于根据正文信息将各网页划分为多个类别;候选页面集合条件判断单元,用于根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;候选页面集合生成单元,用于将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。在一实施例中,上述的生成装置还包括:停止条件判断单元,用于判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页面集合。在一实施例中,上述的停止条件判断单元还用于:当候选页面集合中的网页不满足停止条件时,触发网页抓取单元,抓取并分析多个网页,分别获取各网页的属性信息及正文信息。在一实施例中,上述的候选页面集合条件判断单元具体包括:新链接确定模块,用于将每个网页的链接与已存储网页的链接进行比对,以确定网页中新链接的数量;新链接条件判断模块,用于判断新链接的数量是否满足候选页面集合中新链接数量的条件。在一实施例中,上述的新链接条件判断模块具体用于:判断新链接的数量是否大于或等于一第一预设数值;如果是,则新链接的数量满足候选页面集合中新链接数量的条件。在一实施例中,上述的候选页面集合条件判断单元进一步包括:符合索引条件链接确定模块,用于根据一索引筛选条件确定新链接中符合索引条件的链接的数量;索引条件判断模块,用于判断新链接中符合索引条件的链接的数量是否满足候选页面集合中符合索引条件链接数量的条件。在一实施例中,上述的索引条件判断模块具体用于:判断新链接中符合索引条件的链接的数量是否大于或等于一第二预设数值;如果是,则新链接中符合索引条件的链接的数量满足候选页面集合中符合索引条件链接数量的条件。在一实施例中,上述的候选页面集合条件判断单元进一步包括:链接归类模块,用于将新链接中符合索引条件的链接按照URL进行归类;持续产生链接条件判断模块,用于判断每一类URL对应的网页中的新链接是否满足候选页面集合中持续产生新链接的条件。在一实施例中,上述的持续产生链接条件判断模块具体用于:判断每一类URL对应的网页中的新链接的数量是否大于或等于一第三预设数值,且每一类URL对应的网页中符合索引条件的新链接的数量是否大于或等于一第四预设数值;如果是,则每一类URL对应的网页中的新链接的数量满足候选页面集合中持续产生新链接数量的条件,则各初步筛选网页满足预设的候选页面集合条件。本专利技术实施例的有益效果在于,通过本专利技术生成的候选页面集合,在能够保证候选页面的时效性的同时,也能保证候选页面的召回率及准确率,且在保证召回的同时规模只有百万量级,可有效解决相关技术中网络蜘蛛所需处理的数据量过大、需要消耗大量的时间的问题,从而提高网络蜘蛛抓取网页的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本专利技术实施例的候选页面集合的生成方法的流程图;图2为根据本专利技术另一实施例的候选页面集合的生成方法的流程图;图3为根据本专利技术实施例的候选页面集合的生成装置的结构示意图;图4为根据本专利技术实施例的候选页面集合条件判断单元300的结构示意图;图5为根据本专利技术另一实施例的候选页面集合条件判断单元300本文档来自技高网...
候选页面集合的生成方法及装置

【技术保护点】
一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;步骤b:根据所述正文信息将各所述网页划分为多个类别;步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。

【技术特征摘要】
1.一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;步骤b:根据所述正文信息将各所述网页划分为多个类别;步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。2.根据权利要求1所述的候选页面集合的生成方法,其特征在于,在所述步骤d之后,所述的生成方法还包括:步骤e:判断各所述类别的候选页面集合中的网页是否满足停止条件;当所述候选页面集合中的网页满足所述停止条件时,停止抓取网页,并生成最终的候选页面集合。3.根据权利要求2所述的候选页面集合的生成方法,其特征在于,所述的生成方法还包括:当所述候选页面集合中的网页不满足所述停止条件时,返回所述步骤a,抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息。4.根据权利要求1至3中任一项所述的候选页面集合的生成方法,其特征在于,所述步骤c具体包括:将每个所述网页的链接与已存储网页的链接进行比对,以确定所述网页中新链接的数量;判断所述新链接的数量是否满足候选页面集合中新链接数量的条件。5.根据权利要求4所述的候选页面集合的生成方法,其特征在于,判断所述新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:判断所述新链接的数量是否大于或等于一第一预设数值;如果是,则所述新链接的数量满足所述候选页面集合中新链接数量的条件。6.根据权利要求4所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:根据一索引筛选条件确定所述新链接中符合索引条件的链接的数量;判断所述新链接中符合索引条件的链...

【专利技术属性】
技术研发人员:魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1