一种支持多协议分布式高并发的互联网信息采集系统及方法技术方案

技术编号:25123347 阅读:41 留言:0更新日期:2020-08-05 02:52
本发明专利技术公开了一种支持多协议分布式高并发的互联网信息采集系统,包括:包括:客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;主机服务器,其包括前端程序和后端程序;主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存。本发明专利技术还提供一种支持多协议分布式高并发的互联网信息采集方法,能够控制采集调度,快速准确的获取信息。

【技术实现步骤摘要】
一种支持多协议分布式高并发的互联网信息采集系统及方法
本专利技术属于互联网信息采集
,特别涉及一种支持多协议分布式高并发的互联网信息采集系统及方法。
技术介绍
随着互联网行业的高速发展,网络开始走进千家万户,每时每刻都有着海量数据产生,但是我们浏览的网页通常不会仅仅只提供我们需要的数据,其中还夹杂着更多的干扰信息,会干扰我们对数据的获取与理解,因此如何安全快速地根据需求获取数据信息成为了新时代互联网行业的最大问题。现有技术中,用户获取数据一般通过网页爬取技术,即根据给定的统一资源定位符(URL)自动加载网页,获取相关数据的一种技术,一般通过给定的URL列表或者范围进行爬取信息操作,通过爬取技术加载网页,并通过广告过滤去除一定的冗余数据,对得到的数据进行保存,然后在获取到海量数据后通过相关的分析算法进行分析,根据分析结果将数据进行分类,并根据相应的数据结构将数据存入数据库,最后客户端通过提取数据库中的信息,按照预存模板进行展示,或对数据流执行导出操作。但是现有技术存在着很多的缺点,第一,服务器压力大,随着爬取的量加大,单个服务器的压力逐渐增大,会极大的影响效率;第二,安全性较差,容易在爬取过程中受到攻击或反向爬取,从而丢失数据;第三,没有自定义模板功能,现有技术大多有对知名网站的爬取预存模板,但是面对不太常用的网址没有自定义模板功能。因此,如何在快速获取海量准确信息的同时,保障服务器的安全,正是亟需考虑和研究的。
技术实现思路
本专利技术提供了一种支持多协议分布式高并发的互联网信息采集系统,解决现有技术存在的问题,通过分布式高并发主采集服务器和从采集服务器,减小了高并发模式下单一服务器的运行压力,更好地解决高并发模式下的效率低下问题。本专利技术还提供一种支持多协议分布式高并发的互联网信息采集方法,通过对URL数据的处理,能够实现对指定网站执行信息抓取,并对重复冗余信息进行过滤,对经过过滤的信息进行分析处理,并将信息规整入相关的数据库中,控制采集调度,快速准确的获取信息。本专利技术提供的技术方案为:一种支持多协议分布式高并发的互联网信息采集系统,包括:客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;主机服务器,其包括前端程序和后端程序;其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;其中,所述主机服务器能够调用所述从采集服务器中的数据;数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述机服务器。优选的是,所述抓取结果包括:文本信息,其存储于所述持久化数据库中;图片信息,其存储于所述文件系统中。优选的是,所述抓取包括:非结构化抓取,根据字符出现的规律进行动态匹配完成非结构化数据的提取;结构化抓取,通过针对各种规律的分析工具进行结构化数据的提取。优选的是,所述非结构化数据,其数据的内容整体没有固定的格式和语法规范;结构化数据,其数据的内容有固定的语法规范,按照固定的结构进行组织管理。优选的是,所述页面样式渲染工具为Semantic,所述数据处理工具和输出工具为React,所述后端程序通过express架构为所述前端程序提供数据访问API。优选的是,所述反反爬安全机制包括:cookie池、代理池、验证码、时间间隔。优选的是,在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用,用户能够根据需求自由定制并保存自定义模板。一种支持多协议分布式高并发的互联网信息采集方法,包括如下步骤:步骤1、引擎打开一个网站,找到处理所述网站的爬虫;步骤2、所述爬虫通过所述引擎向调度器请求初始URL;步骤3、所述调度器将初始URL作为请求进行排序和入队处理;步骤4、所述引擎向所述调度器请求待爬取URL,步骤5、所述调度器返回待爬取URL给所述引擎;步骤6、所述引擎将待爬取URL通过下载中间器发送给下载器;步骤7、所述下载器向互联网发送请求,页面下载完毕后,所述下载器生成页面的响应;步骤8、所述引擎从所述下载器中接收响应,并通过爬虫中间器发送给所述爬虫;步骤9、所述爬虫处理响应,并提取项目经过引擎交给项目管道保存;步骤10、重复步骤2-步骤8,直至所述调度器中没有待处理的请求,所述引擎关闭。本专利技术的有益效果是:本专利技术提供的支持多协议分布式高并发的互联网信息采集系统,采集引擎采用了分布式高并发主从策略,并根据固定的抓取策略、更新策略、抽取策略和抓取频率向协议处理器分配URL,减少了高并发模式下单一服务器的运行压力,更好地解决高并发模式下的效率低下问题;本专利技术提供的支持多协议分布式高并发的互联网信息采集系统还执行了反反爬机制,能够防止别的信息抓取网站对本系统的信息爬取,保证数据安全,因此本系统能够提供相对安全、快速的互联网信息采集服务;本专利技术提供的支持多协议分布式高并发的互联网信息采集系统的客户端支持用户自定义模板,方便用户对非常用网站的信息采集;本专利技术提供的支持多协议分布式高并发的互联网信息采集方法,通过对URL数据的处理,能够实现对指定网站执行信息抓取,并对重复冗余信息进行过滤,对经过过滤的信息进行分析处理,将信息规整入相关的数据库中。附图说明图1为本专利技术所述支持多协议分布式高并发的互联网信息采集系统的流程图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。本专利技术提供了一种支持多协议分布式高并发的互联网信息采集系统,解决了服务器压力过大,造成效率下降的问题;并且实现了对爬取结果进行过滤和分析,将相关的数据分类存储,从而避免了目标网页可能存在的大量干扰信息。如图1所示,为本专利技术提供的支持多协议分布式高并发的互联网信息采集系统,包括:客户端110、主机服务器(图中未标出)、主采集服务器140、缓存服务器150、从采集服务器160和数据存储服务器(图中未标出)。其中,客户端110采用B/S风格,主要用于PC端,通过互联网与主机服务器进行交互,能够完整地支持使用者对整个爬取过程的控制。客户端110中预存了一些相对知名度较高的网站信息采集模板,同时可根据需求自由定制并保存本文档来自技高网...

【技术保护点】
1.一种支持多协议分布式高并发的互联网信息采集系统,其特征在于,包括:/n客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;/n主机服务器,其包括前端程序和后端程序;/n其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;/n主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;/n缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;/n其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;/n从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;/n其中,所述主机服务器能够调用所述从采集服务器中的数据;/n数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述主机服务器。/n

【技术特征摘要】
1.一种支持多协议分布式高并发的互联网信息采集系统,其特征在于,包括:
客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;
主机服务器,其包括前端程序和后端程序;
其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;
主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;
缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;
其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;
从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;
其中,所述主机服务器能够调用所述从采集服务器中的数据;
数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述主机服务器。


2.根据权利要求1所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述抓取结果包括:
文本信息,其存储于所述持久化数据库中;
图片信息,其存储于所述文件系统中。


3.根据权利要求2所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述抓取包括:
非结构化抓取,根据字符出现的规律进行动态匹配完成非结构化数据的提取;
结构化抓取,通过针对各种规律的分析工具进行结构化数据的提取。


4.根据权利要求3所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述非结构化数据,...

【专利技术属性】
技术研发人员:焦健张沛轩吕恒张立华
申请(专利权)人:长春博立电子科技有限公司
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1