一种互联网爬虫路由方法技术

技术编号:22641948 阅读:31 留言:0更新日期:2019-11-26 16:13
本发明专利技术公开了一种互联网爬虫路由方法,包括:轮询种子链接库,在取到种子链接后进入下一步,否则进一步判断种子链接库是否为空,在种子链接库不为空的情况下,无限循环轮询种子链接库;解析网页页面,提取网页页面中的URL链接;对步骤二得到的URL链接进行去重和链接过滤,输出网页链接集合;对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算;将经过步骤四处理的URL链接作为种子链接,纳入种子链接库。本发明专利技术极大的提升了互联网数据采集的时效性、全面性,并且合理的优化了互联网数据采集的资源分配,具有较高的经济性。

An Internet crawler routing method

The invention discloses an Internet crawler routing method, which includes: polling the seed link library, entering the next step after taking the seed link, otherwise further determining whether the seed link library is empty, polling the seed link library infinitely and circularly when the seed link library is not empty; parsing the web page, extracting the URL link in the web page; advancing the URL link obtained in step 2 Row de duplication and link filtering are used to output the web page link collection; the URL links processed in step 3 are classified into link URL format, web page access process record and link change rate calculation in the web page in turn; the URL links processed in step 4 are included in the seed link library as seed links. The invention greatly improves the timeliness and comprehensiveness of Internet data collection, reasonably optimizes the resource allocation of Internet data collection, and has high economy.

【技术实现步骤摘要】
一种互联网爬虫路由方法
本专利技术公开了一种互联网爬虫路由方法,涉及互联网信息

技术介绍
互联网爬虫程序是一种收集互联网信息技术手段,互联网爬虫程序在爬取互联网信息时按照一定的爬取策略来遍历网站的所有网页,现有的爬取策略可以分为深度优先、广度优先和最佳优先三种,都是基于网页之间的链接,通过已知的网页,来对与其有直接或间接关系的网页做出评价的算法。衡量爬取策略算法的优劣一般包括两个维度,时效维度和覆盖率维度,即能够快速发现网站最新发表的网页。现有的互联网爬虫通常基于广度优先搜索算法发现新的互联网网页,这种方式存在大量不确定性,主要表现在:1、不确定是否能够发现目标站点所有页面,即无法保证对目标网站的尽可能覆盖;2、不能够保证在可接受的时间内发现网站最新发表的网页;3、由于互联网网页内超链接信息庞大,遍历一个网站往往需要投入较为可观的资源,现有爬取策略无法做到在覆盖率与时效性上的平衡。现有技术中,通常互联网爬虫的运行流程逻辑如图1所示,其具体过程包括:1,访问初始页面链接;2,渲染、解析网页页面;3,提取网页页面中包含的网页链接URL;4,按指定的方式输出去重后的网页链接URL;5,根据爬虫爬取策略判断是否结束爬取或者继续遍历网站;5.1,若满足爬虫爬取策略的结束条件,则结束当前的爬取过程;5.2,若未满足爬虫爬取策略的结束条件,则继续遍历爬取该网站;6,根据爬虫爬取策略,从当前已遍历到的网页URL中选择适合的页面继续第2步。上述的互联网爬虫的爬取策略相对简单,比如在采用广度优先爬取策略时,会记录已经访问过的网页链接,在一次完整的爬取过程中,一个网页只会爬取一次,不会重复爬取,这样就产生一个问题,如果某个网页是网站中非常活跃的网页,这个网页会频繁的发布网站最新发表的网页链接,那么广度优先爬取策略就无法在覆盖率与时效性上达到更好的效果。
技术实现思路
本专利技术所要解决的技术问题是:针对现有技术的缺陷,提供一种互联网爬虫路由方法,够识别活跃的网页并制定活跃网页的再次访问策略。通过一种全新的互联网爬虫路由技术来弥补现有常规爬取策略的缺点,提高互联网爬虫数据采集的及时性、完整性和经济性。本专利技术为解决上述技术问题采用以下技术方案:一种互联网爬虫路由方法,所述方法具体包括:步骤一、轮询种子链接库,在取到种子链接后进入步骤二,否则进一步判断种子链接库是否为空,在种子链接库不为空的情况下,无限循环轮询种子链接库;步骤二、解析网页页面,提取网页页面中的URL链接;步骤三、对步骤二得到的URL链接进行去重和链接过滤,输出网页链接集合;步骤四、对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算;步骤五、将经过步骤四处理的URL链接作为种子链接,纳入种子链接库。作为本专利技术的进一步优选方案,步骤三中,所述链接过滤包括:过滤包含指定的后缀的链接;过滤黑链,所述黑链为网页上不显示,但是在网页源文件中存在的链接;过滤人工配置的需要过滤的指定格式的链接。作为本专利技术的进一步优选方案,步骤四中,所述链接URL格式分类具体为:对网页页面中包含的链接URL按照相似度算法进行分类计算,分类计算的结果包含各特征链接URL以及各特征链接URL对应的链接URL集合。所述网页访问过程记录具体为:记录互联网爬虫爬取网站过程中所有访问页面的快照信息,每个页面的快照信息包括:一、前置链接,即爬取过程中当前页面的上一个页面链接,所述前置链接是一个集合,表明当前页面存在多个链接入口;二、当前页面中包含的链接数量和链接集合,结合链接URL格式分类记录各链接URL格式分类的链接数量和链接集合。所述网页中链接变化率计算具体为:通过网页访问过程记录的数据,计算某个时间范围内某个网页中包含的链接变化比例;对于仅访问过一次的网页直接对其网页链接变化率赋初始值;网页中链接变化率用以衡量一个网页对互联网爬虫的重要程度,变化率越大的网页其发布信息的频率越快,对互联网爬虫的价值越高。作为本专利技术的进一步优选方案,所述种子链接库中的每个网页链接视作一个待爬取的网页任务,所述网页任务包含网页链接的信息,还包含下次执行爬取的时间;所述种子链接库作为记录互联网爬虫爬取路由算法的路由表,该路由表告诉互联网爬虫在什么时候应该访问哪些网页链接。作为本专利技术的进一步优选方案,步骤三中,所述输出网页链接集合输出的对象是互联网爬虫访问过的所有网页页面和所有爬取到的网页链接信息。作为本专利技术的进一步优选方案,所述种子链接的选择方法为:步骤1、读取种子链接库中当前链接网页的种子任务数量N和最后一个种子任务执行时间T;步骤2、读取当前链接网页链接变化率数据和过程记录数据;步骤3、根据链接变化率确定对应种子链接的价值分级;步骤4、生成相应的种子链接任务。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:1、本专利技术中的互联网爬虫爬取过程逻辑算法和种子链接选择逻辑算法适用于绝大多数互联网站点,有着较强的通用性;2、本专利技术中的互联网爬虫爬取过程逻辑算法和种子链接选择逻辑算法极大的提升了互联网数据采集的时效性、全面性,并且合理的优化了互联网数据采集的资源分配,具有较高的经济性。附图说明图1是现有技术中互联网爬虫爬取过程逻辑图;图2是本专利技术中,互联网爬虫爬取过程逻辑图;图3是本专利技术中,种子链接选择逻辑图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。下面结合附图对本专利技术的技术方案做进一步的详细说明:本专利技术所公开的互联网爬虫路由方法中,互联网爬虫在运行过程中对每一次访问的网页不仅仅需要提取网页页面中的URL链接,还需要进行一系列的记录、计算和统计,包括:链接过滤、链接URL格式分类、网页访问过程记录、网页中链接变化率计算,这些记录、计算和统计的数据将作为互联网爬虫爬取策略路由算法的支撑数据。本专利技术中,互联网爬虫爬取过程逻辑图如图2所示,链接过滤包括:一、过滤包含指定的后缀的链接,如各种资源文件(图片、视频、音频)、压缩文件(zip、rar、tar、gz)、网页脚本(js、do、css)等,这些链接对应的资源可以被互联网爬虫忽略;二、过滤黑链,黑链是指网页上不显示,但是在网页源文件中存在的链接,通常黑链是一些无用的链接,甚至是爬虫的陷阱链接(正常页面看不到的链接被访问后,网站会认为只有互联网爬虫才会访问,网站会采取相应的措施限制互联网爬虫的访问);三、用户可配置的本文档来自技高网
...

【技术保护点】
1.一种互联网爬虫路由方法,其特征在于,所述方法具体包括:/n步骤一、轮询种子链接库,在取到种子链接后进入步骤二,否则进一步判断种子链接库是否为空,在种子链接库不为空的情况下,无限循环轮询种子链接库;/n步骤二、解析网页页面,提取网页页面中的URL链接;/n步骤三、对步骤二得到的URL链接进行去重和链接过滤,输出网页链接集合;/n步骤四、对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算;/n步骤五、将经过步骤四处理的URL链接作为种子链接,纳入种子链接库。/n

【技术特征摘要】
1.一种互联网爬虫路由方法,其特征在于,所述方法具体包括:
步骤一、轮询种子链接库,在取到种子链接后进入步骤二,否则进一步判断种子链接库是否为空,在种子链接库不为空的情况下,无限循环轮询种子链接库;
步骤二、解析网页页面,提取网页页面中的URL链接;
步骤三、对步骤二得到的URL链接进行去重和链接过滤,输出网页链接集合;
步骤四、对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算;
步骤五、将经过步骤四处理的URL链接作为种子链接,纳入种子链接库。


2.如权利要求1所述的一种互联网爬虫路由方法,其特征在于,步骤三中,所述链接过滤包括:
过滤包含指定的后缀的链接;
过滤黑链,所述黑链为网页上不显示,但是在网页源文件中存在的链接;
过滤人工配置的需要过滤的指定格式的链接。


3.如权利要求1所述的一种互联网爬虫路由方法,其特征在于,步骤四中,所述链接URL格式分类具体为:
对网页页面中包含的链接URL按照相似度算法进行分类计算,分类计算的结果包含各特征链接URL以及各特征链接URL对应的链接URL集合。


4.如权利要求1所述的一种互联网爬虫路由方法,其特征在于,步骤四中,所述网页访问过程记录具体为:
记录互联网爬虫爬取网站过程中所有访问页面的快照信息,每个页面的快照信息包括:
一、前置链接,即爬取过程中当前页面的上一个页面链接,所述前置链接是一个集合,表明当前页面存在多个链接入...

【专利技术属性】
技术研发人员:沈文凯崔弘刘宇
申请(专利权)人:南京烽火天地通信科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1