The present invention provides a method and a device for generating candidate set of pages, including the generation method: capture and analyze multiple web pages, to obtain attribute information and text information of each page; according to the text information each page is divided into several categories according to the attribute of each page of the letter; separately determine the \meet the candidate page the default set of conditions; each page will meet the preset conditions of the set of candidate pages are stored in categories, each category of the set of candidate pages. The candidate pages generated by the invention set, can ensure the timeliness of the candidate pages at the same time, can also ensure that the recall rate of candidate pages and accuracy, and ensure the recall at the same time scale of only millions of magnitude, which can effectively solve the problem of network spider technology required for processing large amounts of data in, need to consume a large amount of the problem of time, so as to improve the efficiency of network spider crawling.
【技术实现步骤摘要】
候选页面集合的生成方法及装置
本专利技术是关于信息搜索技术,具体地,是关于一种候选页面集合的生成方法及装置。
技术介绍
搜索引擎对于互联网上出现的实时热点需要第一时间发现和收录。搜索引擎蜘蛛有一个庞大的URL(UniformResourceLocator,统一资源定位符)库,规模达到数千亿甚至上万亿量级。网络蜘蛛所有的抓取都从这个URL库出发,即从URL库中挑选出一批URL,对这批URL实施抓取,从中发现新链接再添加到URL库中。热点链接就是从中被发现并通过下次选取抓取和收录的。但是,因为网络蜘蛛所处理的数据量过于庞大,需要消耗大量的时间,把全部链接挑一遍再抓一遍很难保证所有的热点都能在第一时间被发现和收录。因此,如何能使网络蜘蛛找出一个精简但又覆盖完整的候选页面集合,是目前亟待解决的问题。
技术实现思路
本专利技术实施例的主要目的在于提供一种候选页面集合的生成方法及装置,以克服上述问题,从而提高网页抓取的效率。为了实现上述目的,本专利技术实施例提供一种候选页面集合的生成方法,该生成方法包括:抓取并分析多个网页,分别获取各网页的属性信息及正文信息;根据正文信息将各网页划分为多个类别;根据各网页的属性信息分别判断各网页是否满足预设的候选页面集合条件;将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合。在一实施例中,在将满足预设的候选页面集合条件的各网页按照类别进行存储,生成各类别的候选页面集合之后,该生成方法还包括:判断各类别的候选页面集合中的网页是否满足停止条件;当候选页面集合中的网页满足停止条件时,停止抓取网页,并生成最终的候选页 ...
【技术保护点】
一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;步骤b:根据所述正文信息将各所述网页划分为多个类别;步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。
【技术特征摘要】
1.一种候选页面集合的生成方法,其特征在于,所述的生成方法包括:步骤a:抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息;步骤b:根据所述正文信息将各所述网页划分为多个类别;步骤c:根据各所述网页的属性信息分别判断各所述网页是否满足预设的候选页面集合条件;步骤d:将满足所述预设的候选页面集合条件的各所述网页按照所述类别进行存储,生成各所述类别的候选页面集合。2.根据权利要求1所述的候选页面集合的生成方法,其特征在于,在所述步骤d之后,所述的生成方法还包括:步骤e:判断各所述类别的候选页面集合中的网页是否满足停止条件;当所述候选页面集合中的网页满足所述停止条件时,停止抓取网页,并生成最终的候选页面集合。3.根据权利要求2所述的候选页面集合的生成方法,其特征在于,所述的生成方法还包括:当所述候选页面集合中的网页不满足所述停止条件时,返回所述步骤a,抓取并分析多个网页,分别获取各所述网页的属性信息及正文信息。4.根据权利要求1至3中任一项所述的候选页面集合的生成方法,其特征在于,所述步骤c具体包括:将每个所述网页的链接与已存储网页的链接进行比对,以确定所述网页中新链接的数量;判断所述新链接的数量是否满足候选页面集合中新链接数量的条件。5.根据权利要求4所述的候选页面集合的生成方法,其特征在于,判断所述新链接的数量是否满足候选页面集合中新链接数量的条件,具体包括:判断所述新链接的数量是否大于或等于一第一预设数值;如果是,则所述新链接的数量满足所述候选页面集合中新链接数量的条件。6.根据权利要求4所述的候选页面集合的生成方法,其特征在于,所述步骤c进一步包括:根据一索引筛选条件确定所述新链接中符合索引条件的链接的数量;判断所述新链接中符合索引条件的链...
【专利技术属性】
技术研发人员:魏少俊,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。