一种支持多协议分布式高并发的互联网信息采集系统及方法技术方案

技术编号：25123347 阅读：41 留言：0更新日期：2020-08-05 02:52

本发明专利技术公开了一种支持多协议分布式高并发的互联网信息采集系统，包括：包括：客户端，其为B/S风格，所述客户端中预存多个网站信息采集模板；主机服务器，其包括前端程序和后端程序；主采集服务器，其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配，并且所述主采集服务器具有反反爬安全机制；缓存服务器，其具有缓存数据库Redis，所述缓存服务器接收所述初始URL数据；从采集服务器，其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果；数据存储服务器，其包括持久化数据库和文件系统，用于对所述爬取结果进行保存。本发明专利技术还提供一种支持多协议分布式高并发的互联网信息采集方法，能够控制采集调度，快速准确的获取信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种支持多协议分布式高并发的互联网信息采集系统及方法
本专利技术属于互联网信息采集
，特别涉及一种支持多协议分布式高并发的互联网信息采集系统及方法。
技术介绍
随着互联网行业的高速发展，网络开始走进千家万户，每时每刻都有着海量数据产生，但是我们浏览的网页通常不会仅仅只提供我们需要的数据，其中还夹杂着更多的干扰信息，会干扰我们对数据的获取与理解，因此如何安全快速地根据需求获取数据信息成为了新时代互联网行业的最大问题。现有技术中，用户获取数据一般通过网页爬取技术，即根据给定的统一资源定位符(URL)自动加载网页，获取相关数据的一种技术，一般通过给定的URL列表或者范围进行爬取信息操作，通过爬取技术加载网页，并通过广告过滤去除一定的冗余数据，对得到的数据进行保存，然后在获取到海量数据后通过相关的分析算法进行分析，根据分析结果将数据进行分类，并根据相应的数据结构将数据存入数据库，最后客户端通过提取数据库中的信息，按照预存模板进行展示，或对数据流执行导出操作。但是现有技术存在着很多的缺点，第一，服务器压力大，随着爬取的量加大，单个服务器的压力逐渐增大，会极大的影响效率；第二，安全性较差，容易在爬取过程中受到攻击或反向爬取，从而丢失数据；第三，没有自定义模板功能，现有技术大多有对知名网站的爬取预存模板，但是面对不太常用的网址没有自定义模板功能。因此，如何在快速获取海量准确信息的同时，保障服务器的安全，正是亟需考虑和研究的。
技术实现思路
本专利技术提供了一种支持多协议分布...

【技术保护点】
1.一种支持多协议分布式高并发的互联网信息采集系统，其特征在于，包括：/n客户端，其为B/S风格，所述客户端中预存多个网站信息采集模板；/n主机服务器，其包括前端程序和后端程序；/n其中，所述前端程序包括：页面样式渲染工具、数据处理工具和输出工具，并且所述前端程序通过互联网与所述客户端进行交互；所述后端程序为所述前端程序提供数据访问API；/n主采集服务器，其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配，并且所述主采集服务器具有反反爬安全机制；/n缓存服务器，其具有缓存数据库Redis，所述缓存服务器接收所述初始URL数据；/n其中，所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据；/n从采集服务器，其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果；/n其中，所述主机服务器能够调用所述从采集服务器中的数据；/n数据存储服务器，其包括持久化数据库和文件系统，用于对所述爬取结果进行保存，并且所述数据存储服务器将数据结果返回给所述主机服务器。/n

【技术特征摘要】
1.一种支持多协议分布式高并发的互联网信息采集系统，其特征在于，包括：
客户端，其为B/S风格，所述客户端中预存多个网站信息采集模板；
主机服务器，其包括前端程序和后端程序；
其中，所述前端程序包括：页面样式渲染工具、数据处理工具和输出工具，并且所述前端程序通过互联网与所述客户端进行交互；所述后端程序为所述前端程序提供数据访问API；
主采集服务器，其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配，并且所述主采集服务器具有反反爬安全机制；
缓存服务器，其具有缓存数据库Redis，所述缓存服务器接收所述初始URL数据；
其中，所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据；
从采集服务器，其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果；
其中，所述主机服务器能够调用所述从采集服务器中的数据；
数据存储服务器，其包括持久化数据库和文件系统，用于对所述爬取结果进行保存，并且所述数据存储服务器将数据结果返回给所述主机服务器。

2.根据权利要求1所述的支持多协议分布式高并发的互联网信息采集系统，其特征在于，所述抓取结果包括：
文本信息，其存储于所述持久化数据库中；
图片信息，其存储于所述文件系统中。

3.根据权利要求2所述的支持多协议分布式高并发的互联网信息采集系统，其特征在于，所述抓取包括：
非结构化抓取，根据字符出现的规律进行动态匹配完成非结构化数据的提取；
结构化抓取，通过针对各种规律的分析工具进行结构化数据的提取。

4.根据权利要求3所述的支持多协议分布式高并发的互联网信息采集系统，其特征在于，所述非结构化数据，...

【专利技术属性】
技术研发人员：焦健，张沛轩，吕恒，张立华，
申请(专利权)人：长春博立电子科技有限公司，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人