一种信息爬取系统技术方案

技术编号：24684190 阅读：72 留言：0更新日期：2020-06-27 08:10

一种信息爬取系统，所述信息爬取系统包括：多个智能爬取节点，所述智能爬取节点部署在多个拨号虚拟专用服务器上，基于信息爬取时间与信息爬取状态，动态切换所述拨号虚拟专用服务器的IP地址；资源调度系统，所述资源调度系统基于调度算法将待爬取链接分配给所述智能爬取节点以使其执行爬取操作，并从各个智能爬取节点接收爬取结果。通过本发明专利技术提供的技术方案，可以建立稳定的爬虫系统，有效应对反爬策略，实现数据的持续获取。

An information crawling system

全部详细技术资料下载

【技术实现步骤摘要】
一种信息爬取系统
本专利技术涉及网络
，具体地涉及一种信息爬取系统。
技术介绍
信息爬取作为网络信息获取的主要手段，存在大量的业务需求。通常情况下，为实现信息的持续、稳定获取，需要建立一个能有效应对反爬策略，且高效稳定运行的爬虫系统。目前的爬虫系统受限于计算平台、地域等因素，很难有效突破现有的反爬防线。比如传统的开源爬虫工具爬虫Crawler4j、爬虫WebMagic等，都难以规避基于互联网协议(InternetProtocol，简称IP)与地域的反爬取判定，容易被被爬取方迅速锁定。而未开源的厂商系爬虫工具，收费高，且难以适应复杂网络环境下，工业化爬取的高稳定性、高定制与强监控需求。在此情况下，部分爬虫系统增加了针对反爬的技术模块，以利用代理IP进行信息爬取。然而，由于很难获取真正高质量的大量可用IP地址，又易于被被爬取方(例如，网站方)通过IP回溯的方式锁定IP源，因而爬取效果较差。此外，现有的抓取(Scrapy)应用程序框架的爬虫代理crawlera提供了较高质量的IP地址，但是其收费较高，而且相关...

【技术保护点】
1.一种信息爬取系统，其特征在于，包括：/n多个智能爬取节点，所述智能爬取节点部署在多个拨号虚拟专用服务器上，基于信息爬取时间与信息爬取状态，动态切换所述拨号虚拟专用服务器的IP地址；/n资源调度系统，所述资源调度系统基于调度算法将待爬取链接分配给所述智能爬取节点以使其执行爬取操作，并从各个智能爬取节点接收爬取结果。/n

【技术特征摘要】
1.一种信息爬取系统，其特征在于，包括：
多个智能爬取节点，所述智能爬取节点部署在多个拨号虚拟专用服务器上，基于信息爬取时间与信息爬取状态，动态切换所述拨号虚拟专用服务器的IP地址；
资源调度系统，所述资源调度系统基于调度算法将待爬取链接分配给所述智能爬取节点以使其执行爬取操作，并从各个智能爬取节点接收爬取结果。

2.根据权利要求1所述的信息爬取系统，其特征在于，所述智能爬取节点基于部署的拨号虚拟专用服务器的内存容量和爬取到的信息数量，动态打开或关闭网页引擎。

3.根据权利要求2所述的信息爬取系统，其特征在于，所述智能爬取节点基于所述网页引擎访问所述待爬取链接，并在所述网页引擎中对所述待爬取链接关联的网页源码进行动态渲染。

4.根据权利要求1所述的信息爬取系统，其特征在于，所述爬取结果含有多个待爬取链接，所述信息爬取系统还包括：
信息解析与管理系统，适于从所述爬取结果中提取目标信息，并从所述爬取结果中解析所述多个待爬取链接。
<...

【专利技术属性】
技术研发人员：胡崇海，熊友根，王洪涛，
申请(专利权)人：海通证券股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人