一种互联网爬虫路由方法技术

技术编号：22641948 阅读：31 留言：0更新日期：2019-11-26 16:13

本发明专利技术公开了一种互联网爬虫路由方法，包括：轮询种子链接库，在取到种子链接后进入下一步，否则进一步判断种子链接库是否为空，在种子链接库不为空的情况下，无限循环轮询种子链接库；解析网页页面，提取网页页面中的URL链接；对步骤二得到的URL链接进行去重和链接过滤，输出网页链接集合；对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算；将经过步骤四处理的URL链接作为种子链接，纳入种子链接库。本发明专利技术极大的提升了互联网数据采集的时效性、全面性，并且合理的优化了互联网数据采集的资源分配，具有较高的经济性。

An Internet crawler routing method

The invention discloses an Internet crawler routing method, which includes: polling the seed link library, entering the next step after taking the seed link, otherwise further determining whether the seed link library is empty, polling the seed link library infinitely and circularly when the seed link library is not empty; parsing the web page, extracting the URL link in the web page; advancing the URL link obtained in step 2 Row de duplication and link filtering are used to output the web page link collection; the URL links processed in step 3 are classified into link URL format, web page access process record and link change rate calculation in the web page in turn; the URL links processed in step 4 are included in the seed link library as seed links. The invention greatly improves the timeliness and comprehensiveness of Internet data collection, reasonably optimizes the resource allocation of Internet data collection, and has high economy.

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网爬虫路由方法
本专利技术公开了一种互联网爬虫路由方法，涉及互联网信息

技术介绍
互联网爬虫程序是一种收集互联网信息技术手段，互联网爬虫程序在爬取互联网信息时按照一定的爬取策略来遍历网站的所有网页，现有的爬取策略可以分为深度优先、广度优先和最佳优先三种，都是基于网页之间的链接，通过已知的网页，来对与其有直接或间接关系的网页做出评价的算法。衡量爬取策略算法的优劣一般包括两个维度，时效维度和覆盖率维度，即能够快速发现网站最新发表的网页。现有的互联网爬虫通常基于广度优先搜索算法发现新的互联网网页，这种方式存在大量不确定性，主要表现在：1、不确定是否能够发现目标站点所有页面，即无法保证对目标网站的尽可能覆盖；2、不能够保证在可接受的时间内发现网站最新发表的网页；3、由于互联网网页内超链接信息庞大，遍历一个网站往往需要投入较为可观的资源，现有爬取策略无法做到在覆盖率与时效性上的平衡。现有技术中，通常互联网爬虫的运行流程逻辑如图1所示，其具体过程包括：1，访问初始页面链接；2，渲染、解析网页页面；3，提取网页页面中包含的网页链接URL；4，按指定的方式输出去重后的网页链接URL；5，根据爬虫爬取策略判断是否结束爬取或者继续遍历网站；5.1，若满足爬虫爬取策略的结束条件，则结束当前的爬取过程；5.2，若未满足爬虫爬取策略的结束条件，则继续遍历爬取该网站；6，根据爬虫爬取策略，从当前已遍历到的网页URL中...

【技术保护点】
1.一种互联网爬虫路由方法，其特征在于，所述方法具体包括：/n步骤一、轮询种子链接库，在取到种子链接后进入步骤二，否则进一步判断种子链接库是否为空，在种子链接库不为空的情况下，无限循环轮询种子链接库；/n步骤二、解析网页页面，提取网页页面中的URL链接；/n步骤三、对步骤二得到的URL链接进行去重和链接过滤，输出网页链接集合；/n步骤四、对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算；/n步骤五、将经过步骤四处理的URL链接作为种子链接，纳入种子链接库。/n

【技术特征摘要】
1.一种互联网爬虫路由方法，其特征在于，所述方法具体包括：
步骤一、轮询种子链接库，在取到种子链接后进入步骤二，否则进一步判断种子链接库是否为空，在种子链接库不为空的情况下，无限循环轮询种子链接库；
步骤二、解析网页页面，提取网页页面中的URL链接；
步骤三、对步骤二得到的URL链接进行去重和链接过滤，输出网页链接集合；
步骤四、对经过步骤三处理的URL链接依次进行链接URL格式分类、网页访问过程记录和网页中链接变化率计算；
步骤五、将经过步骤四处理的URL链接作为种子链接，纳入种子链接库。

2.如权利要求1所述的一种互联网爬虫路由方法，其特征在于，步骤三中，所述链接过滤包括：
过滤包含指定的后缀的链接；
过滤黑链，所述黑链为网页上不显示，但是在网页源文件中存在的链接；
过滤人工配置的需要过滤的指定格式的链接。

3.如权利要求1所述的一种互联网爬虫路由方法，其特征在于，步骤四中，所述链接URL格式分类具体为：
对网页页面中包含的链接URL按照相似度算法进行分类计算，分类计算的结果包含各特征链接URL以及各特征链接URL对应的链接URL集合。

4.如权利要求1所述的一种互联网爬虫路由方法，其特征在于，步骤四中，所述网页访问过程记录具体为：
记录互联网爬虫爬取网站过程中所有访问页面的快照信息，每个页面的快照信息包括：
一、前置链接，即爬取过程中当前页面的上一个页面链接，所述前置链接是一个集合，表明当前页面存在多个链接入...

【专利技术属性】
技术研发人员：沈文凯，崔弘，刘宇，
申请(专利权)人：南京烽火天地通信科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人