一种基于分布式爬虫引擎的数据采集方法技术

技术编号：27935833 阅读：46 留言：0更新日期：2021-04-02 14:16

本发明专利技术公开了一种基于分布式爬虫引擎的数据采集方法，其包括以下步骤：S1、获取用户的任务创建请求并创建对应的数据采集任务；S2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程；S3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据；S4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库；本发明专利技术通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式爬虫引擎的数据采集方法
本专利技术涉及数据采集
，尤其涉及一种基于分布式爬虫引擎的数据采集方法。
技术介绍
信息网络技术的高速更新发展，带来了网络信息量的爆炸增长，在网络信息量如此庞大的时代，如何快速、针对性获取用户所需的网络信息成了人们所关注的问题并促使了搜索引擎的诞生，如爬虫。搜索引擎就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术，对信息进行组织和处理后提供给用户。爬虫引擎是一种自动浏览网络，分析网页内容的一种搜索引擎，但是爬虫引擎采集的数据通常为单机爬取，对于大量的网络信息量进行采集效率过低，传统爬虫采集回来的数据存储在数据库中，数据库量小，难以满足用户的使用需求。
技术实现思路
本专利技术的目的在于提供一种基于分布式爬虫引擎的数据采集方法，通过分布式部署爬虫集群的爬虫引擎，爬取目标网站的定向数据，提高了爬取效率及数据的精确度。为实现上述目的，本专利技术采用以下技术方案：一种基于分布式爬虫引擎的数据采集方法，包括以下步骤：S1、本文档来自技高网...

【技术保护点】
1.一种基于分布式爬虫引擎的数据采集方法，其特征在于，包括以下步骤：/nS1、获取用户的任务创建请求并创建对应的数据采集任务；/nS2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程；/nS3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据；/nS4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库。/n

【技术特征摘要】
1.一种基于分布式爬虫引擎的数据采集方法，其特征在于，包括以下步骤：
S1、获取用户的任务创建请求并创建对应的数据采集任务；
S2、构建分布式爬虫系统，对数据采集任务进行调度并触发任务执行，通过分布式爬虫系统分解数据采集任务，并分配给多个爬虫线程；
S3、启动爬虫线程，分布式爬虫系统从队列资源获取URL，根据数据采集任务指定的目标网站爬取URL对应的页面，下载并获取页面数据；
S4、对获取的页面数据进行整理清洗，生成与数据采集任务匹配的格式化数据集，并通过持久化处理后存储入数据库。

2.如权利要求1所述的一种基于分布式爬虫引擎的数据采集方法，其特征在于：所述分布式爬虫系统包括队列资源模块、下载模块、数据解析模块及数据存储模块；
所述队列资源模块，用于根据数据采集任务生成队列资源到redis中并从中获取目标网站的URL；
所述下载模块，用于将所述URL发送至下载模块，以使下载模块下载URL对应的页面数据；
所述数据解析模块，用于解析页面数据并生成与数据采集任务匹配的格式化数据集；
所述数据存储模块，用于持久化处理格式化数据集并存储在数据库。

3.如权利要求2所述的一种基于分布式爬虫引擎的数据采集方法，其特征在于：所述数据采集任务生成队列资源到redis中并从中获取目标网站的URL，具体包括：
所述分布式爬虫系统通过调度器读取数据采集任务的爬虫任务及爬虫资源；
所述队列资源存储在数据库中，分布式爬虫系统通过分页排序查询数据库...

【专利技术属性】
技术研发人员：陈思恩，
申请(专利权)人：科技谷厦门信息技术有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人