一种多网站并行爬取的IP代理池的构建系统和方法技术方案

技术编号:32538996 阅读:9 留言:0更新日期:2022-03-05 11:35
本发明专利技术属于IP代理技术领域,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法,所述构建系统包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。上述构建系统构建了多网站并行爬取代理池,实现了多网站并行爬取,进而提高代理IP的利用率以及爬取成功率。率。率。

【技术实现步骤摘要】
一种多网站并行爬取的IP代理池的构建系统和方法


[0001]本专利技术属于IP代理
,具体涉及一种多网站并行爬取的IP代理池的构建系统和方法。

技术介绍

[0002]随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。当下大数据分析、数据挖掘以及人工智能领域的自然语言处理等技术不断发展,这些技术得以飞速发展的前提就是要有数据,而且是高质量的数据。网络爬虫不仅仅解决了数据提取,更从无章可循的网页中提取出结构化数据,这些对上述技术的突破性进展起到了举足轻重的影响。
[0003]传统的爬虫代理方式通常采用一个代理IP进行一对多爬取访问,当时应对多网站并行深度爬取时,容易出现IP代理被封、访问速率慢、访问失败重试、代理池资源调度不合理等问题。解决这些问题可以通过减少相同IP的访问频次、增加适用于不同网站的代理IP池来解决。
[0004]因此,针对以上不足,本专利技术急需提供一种多网站并行爬取的IP代理池的构建系统和方法。

技术实现思路

[0005]本专利技术的目的在于提供一种多网站并行爬取的IP代理池的构建系统和方法,以解决现有技术中单一代理IP爬取多个网站时存在爬取失败和被目标网站封禁的问题。
[0006]本专利技术提供的多网站并行爬取的IP代理池的构建系统,包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对IP验证模块得到的有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个所述待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在IP标记模块得到的标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。
[0007]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,还包括网站爬取模块,用于获取待爬取网站信息并调用IP组合模块得到的对应的网站代理IP队列,并通过网站代理IP队列中的代理IP爬取网站,得到网站信息。
[0008]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,还包括队列维护模块,所述队列维护模块用于监控所述网站爬取模块,并将爬取成功的代理IP置于网站代理IP队列的队尾,将爬取失败的代理IP放入初始IP集合内。
[0009]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,所述队列维护模块还用于监控网站代理IP队列,并在网站代理IP队列中的代理IP数量小于预设数额
时,在所述标记IP集合中挑取标记信息与其匹配的代理IP加入到所述网站代理IP队列中。
[0010]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,还包括定时验证模块,所述定时验证模块用于定时验证标记IP集合内代理IP的可用性,并将可用性验证不通过的代理IP剔除到初始IP集合中。
[0011]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,还包括IP评分模块,所述IP评分模块用于根据可用性验证结果、标记信息以及爬取结果为所述代理IP评分,所述有效队列和所述网站代理IP队列中的代理IP根据评分列队排列。
[0012]如上所述的多网站并行爬取的IP代理池的构建系统,进一步优选为,所述网站爬取模块还用于在代理IP初次爬取目标网站失败时,重试爬取,且每次重试爬取的时间较上次爬取递增。
[0013]本专利技术还公开了多网站并行爬取的IP代理池的构建方法,包括以下步骤:
[0014]步骤1:对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;步骤2:对步骤1得到的有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;步骤3:获取多个待爬取网站信息并为每个所述待爬取网站构建对应的网站代理IP队列,基于待爬取网站信息在步骤2得到的标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中,得到多网站并行爬取的IP代理池。
[0015]如上所述的多网站并行爬取的IP代理池的构建方法,进一步优选为,还包括步骤4:监控所述网站代理IP队列中代理IP的爬取状态,并将爬取成功的代理IP置于网站代理IP队列的队尾,将爬取失败的代理IP放入初始IP集合内;监控网站代理IP队列,并在网站代理IP队列中的代理IP数量小于预设数额时,在所述标记IP集合中挑取标记信息与其匹配的代理IP加入到所述网站代理IP队列中。
[0016]如上所述的多网站并行爬取的IP代理池的构建方法,进一步优选为,还包括步骤5:定期验证标记IP集合内代理IP的可用性,并在可用性验证不通过的代理IP剔除到初始IP集合中。
[0017]本专利技术与现有技术相比具有以下的优点:
[0018]本专利技术所公开的用于多网站并行爬取的IP代理池包括IP验证模块、IP标记模块和IP组合模块,其中IP验证模块用于代理IP的可用性验证,进而筛选出可用的代理IP;IP标记模块用于代理IP的信息标记,从而得到具有标记信息的标记IP集合,进而便于有选择地筛选代理IP;IP组合模块用于获取待爬取网站信息并为其构建网站代理IP队列,同时还用于根据待爬取网站信息从标记IP集合内挑取标记信息与待爬取网站信息相匹配的代理IP,并将挑选的代理IP置入对应的网站代理IP队列中。通过上述方法,实现了代理IP的收集、筛选、标记并列队组合,使得每个待爬取网站均具有一个对应的网站代理IP队列,且不同网站代理IP队列中的代理IP不相同,进而实现多网站并行爬取,且避免同时进行多网站内容爬取时,单一的代理IP爬取失败或被目标网站封禁的问题,进而提高代理IP的利用率以及爬取成功率。
[0019]本专利技术还通过设置队列维护模块,实现对网站爬取模块和网站代理IP队列的监控,进而实时掌控代理IP的爬取使用信息和网站代理IP列队中代理IP的数量信息,进而实现失效代理IP的清理和新代理IP的补充,进而使网站代理IP队列实现动态平衡。
[0020]本专利技术还通过设置定时验证模块定时验证标记IP集合内代理IP的可用性,从而保证标记IP集合内的代理IP处于可用状态,避免标记IP集合内的代理IP失效。
附图说明
[0021]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本专利技术中用于多网站并行爬取的IP代理池的构建方法流程图;
[0023]图2为本专利技术中用于多网站并行爬取的IP代理池的结构连接图。
具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多网站并行爬取的IP代理池的构建系统,其特征在于,包括:IP验证模块,用于对初始IP集合内的代理IP进行代理可用性验证,并将可用的代理IP置入有效队列中,得到有效IP集合;IP标记模块,用于对IP验证模块得到的有效IP集合内的代理IP进行逐一标记,得到具有标记信息的标记IP集合;IP组合模块,用于获取若干待爬取网站信息并为每个所述待爬取网站构建对应的网站代理IP队列,还用于基于待爬取网站信息在IP标记模块得到的标记IP集合中挑取标记信息与其匹配的代理IP,并将挑取的代理IP置入与其匹配的网站代理IP队列中。2.根据权利要求1所述的多网站并行爬取的IP代理池的构建系统,其特征在于,还包括网站爬取模块,用于获取待爬取网站信息并调用IP组合模块得到的对应的网站代理IP队列,并通过网站代理IP队列中的代理IP爬取网站,得到网站信息。3.根据权利要求2所述的多网站并行爬取的IP代理池的构建系统,其特征在于,还包括队列维护模块,所述队列维护模块用于监控所述网站爬取模块,并将爬取成功的代理IP置于网站代理IP队列的队尾,将爬取失败的代理IP放入初始IP集合内。4.根据权利要求3所述的多网站并行爬取的IP代理池的构建系统,其特征在于,所述队列维护模块还用于监控网站代理IP队列,并在网站代理IP队列中的代理IP数量小于预设数额时,在所述标记IP集合中挑取标记信息与其匹配的代理IP加入到所述网站代理IP队列中。5.根据权利要求4所述的多网站并行爬取的IP代理池的构建系统,其特征在于,还包括定时验证模块,所述定时验证模块用于定时验证标记IP集合内代理IP的可用性,并将可用性验证不通过的代理IP剔除到初始IP集合中。6.根据权利要求5所述的多网站并行爬取的IP...

【专利技术属性】
技术研发人员:周小敏应鸿晖林国池石易麦丽娟莫凡林佳涛黄福鸿李高翔卓采标杨慧强廖淑敏宋宜昌周毅黄正国吴冠标李新蒋维曹勇高欢
申请(专利权)人:天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1