基于微服务架构的分布式网络爬虫数据提取系统及方法技术方案

技术编号：24353768 阅读：126 留言：0更新日期：2020-06-03 02:08

本发明专利技术提出了一种基于微服务架构的分布式网络爬虫数据提取系统及方法，通过当前业界比较前沿的微服务架构理念，将整个爬虫系统拆分成数据提取模块，请求预处理模块，数据分布式存储模块，下载模块等，基于这套系统和云架构，用户可以实现分布式爬虫系统的快速部署，支持水平扩展和容器化部署，可以大大提升爬虫系统的可拓展性及快速部署的能力。

Distributed crawler data extraction system and method based on microservice architecture

全部详细技术资料下载

【技术实现步骤摘要】
基于微服务架构的分布式网络爬虫数据提取系统及方法
本专利技术涉及一种基于微服务架构的分布式网络爬虫数据提取系统及方法，属于大数据分布

技术介绍
随着网络在人们生活中的日益普及，也催生出了越来越多的新技术，而网络爬虫就是其中一项运用相当广泛的技术，据统计，当今网络世界中的将近80%的流量来自于各大互联网公司或者个人开发者所开发的网络爬虫。随着网页技术的日益发展，互联网上的数据也随之呈现出爆炸式的增长速度，与此同时，人们对网页信息提取的要求越来越高，对信息抓取的专业性与通用性的要求也越来越高，从而催生出了种类繁多的爬虫系统，当前的爬虫系统根据其体系结构的不同可以区分成通用抓取型爬虫，特定领域垂直爬虫，深度URL（uniformresourcelocator，统一资源定位系统）抓取爬虫等不同类型。网络爬虫的主要原理是通过给定的URL链接去模拟用户访问页面，将被访问页面的数据下载到本地，并且根据指定的提取策略在所爬取道德页面信息中获取所需的关键信息，并对获取到的URL链接进行深度爬取。随着软件开发架构的日益演进，人们提出了一种全新的软件开发架构，这种理念被称为微服务开发理念，通常而言，微服务是一种软件架构的思想和风格，其核心理念是将原本的一站式应用依据其不同功能划分成一组小的服务，从而彻底的实现跨耦合，每个服务运行在自己的进程中，服务与服务之间通过一些轻量级的通信方式进行相互通信，甚至于各个服务可以使用不同的语言进行开发，而对整个微服务系统就可以通过一个完善的监控平台去实现全链路监控，尤其是在开发一个分布式...

【技术保护点】
1.一种基于微服务架构的分布式网络爬虫数据提取系统，其特征在于：包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块；数据提取模块，用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息；请求预处理模块，用于通过负载均衡算法将爬虫任务请求投递至消息队列中；数据分布式存储模块，用于将解析后的页面数据存放至数据库中；下载模块，用于从消息队列中取出相应的爬虫任务，从数据池中取出相应数据组装成完整的爬虫请求，通过模块中的多线程下载器开启下载，并将下载得到的页面信息写入消息队列中。/n

【技术特征摘要】
1.一种基于微服务架构的分布式网络爬虫数据提取系统，其特征在于：包括数据提取模块、请求预处理模块、数据分布式存储模块和下载模块；数据提取模块，用于将下载下来的页面信息根据用户指定的数据提取规则从中提取出指定信息；请求预处理模块，用于通过负载均衡算法将爬虫任务请求投递至消息队列中；数据分布式存储模块，用于将解析后的页面数据存放至数据库中；下载模块，用于从消息队列中取出相应的爬虫任务，从数据池中取出相应数据组装成完整的爬虫请求，通过模块中的多线程下载器开启下载，并将下载得到的页面信息写入消息队列中。

2.一种基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，包括以下步骤：
S01、用户在可视化界面提交爬虫任务数据；
S02、请求预处理模块采用负载均衡算法将爬虫任务信息投递至消息队列；
S03、将页面提取规则以及步骤S02中生成的全局唯一ID作为缓存对象缓存至内存数据库中；
S04、下载模块根据任务信息抓取页面数据；
S05、将下载模块抓取到的页面信息写入消息队列中，同时更新爬虫任务状态；
S06、页面解析模块从消息队列中提取页面信息，然后使用jsoup进行解析，并将解析后的数据存储到数据库中；
S07、爬虫控制台可视化数据展示。

3.根据权利要求2所述基于微服务架构的分布式网格爬虫数据提取方法，其特征在于，在步骤S01中，用户从可视化界面上输入指定爬取的URL路径，同时用户确定该类型页面所要提...

【专利技术属性】
技术研发人员：葛又嘉，章韵，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人