Web数据采集方法和Web数据采集系统技术方案

技术编号：17917897 阅读：42 留言：0更新日期：2018-05-10 21:37

本发明专利技术提出了一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。其中，Web数据采集方法包括：布置待加入虚拟机的爬虫环境；获取待加入虚拟机的IP地址，并将IP地址添加至主节点配置中；控制主机更新运行脚本，以使待加入虚拟机和已加入虚拟机获取最新运行代码；当接收到待加入虚拟机的任务启动指令，根据最新运行代码执行任务启动指令，以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本发明专利技术实现了数据源大量增加时，Web数据爬取上和存储上的横向扩展，提高了爬取数据和存储数据的效率，在有限的时间内完成数据的采集。

全部详细技术资料下载

【技术实现步骤摘要】
Web数据采集方法和Web数据采集系统
本专利技术涉及Web数据采集
，具体而言，涉及一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。
技术介绍
无论是数据分析还是舆情系统都是针对数据，数据采集是基础，数据获取方式自有数据，网络上数据，如果业务涉及网络上数据，需要企业自己爬取，单机的爬取对于大量的web数据处理时间过慢，不能满足业务的需求，传统数据库对于大数据量数据存储和查询性能越来越不能满足现在的软件业务需求。因此，如何实现一种支持无限横向扩展的Web数据采集方法和Web数据采集系统成为亟待解决的问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此，本专利技术第一个方面在于提出一种Web数据采集方法。本专利技术的第二个方面在于提出一种Web数据采集系统。本专利技术的第三个方面在于提出一种计算机设备。本专利技术的第四个方面在于提出一种计算机可读存储介质。有鉴于此，根据本专利技术的一个方面，提出了一种Web数据采集方法，包括：布置待加入虚拟机的爬虫环境；获取待加入虚拟机的IP地址，并将IP地址添加至主节点配置中；控制主机更新运行脚本，以使待加入虚拟机和已加入虚拟机获取最新运行代码；当接收到待加入虚拟机的任务启动指令，根据最新运行代码执行任务启动指令，以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本专利技术提供的Web数据采集方法，通过调度平台进行管理，布置带加入的虚拟机的爬虫环境，以使待加入虚拟机的加入数据采集的集群中可以进行爬取数据，获取搭建好爬虫环境的虚拟机的IP地址，将IP...
Web数据采集方法和Web数据采集系统

【技术保护点】
一种Web数据采集方法，其特征在于，包括：布置待加入虚拟机的爬虫环境；获取所述待加入虚拟机的IP地址，并将所述IP地址添加至主节点配置中；控制主机更新运行脚本，以使所述待加入虚拟机和已加入虚拟机获取最新运行代码；当接收到所述待加入虚拟机的任务启动指令，根据所述最新运行代码执行所述任务启动指令，以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。

【技术特征摘要】
1.一种Web数据采集方法，其特征在于，包括：布置待加入虚拟机的爬虫环境；获取所述待加入虚拟机的IP地址，并将所述IP地址添加至主节点配置中；控制主机更新运行脚本，以使所述待加入虚拟机和已加入虚拟机获取最新运行代码；当接收到所述待加入虚拟机的任务启动指令，根据所述最新运行代码执行所述任务启动指令，以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。2.根据权利要求1所述的Web数据采集方法，其特征在于，根据所述最新运行代码执行所述任务启动指令，以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集之后，还包括：接收目标网站的Web数据获取请求；根据所述Web数据获取请求建立任务队列；当所述集群中具有空闲资源时，控制网络爬虫使用所述空闲资源执行所述任务队列中的任务计划，以获取所述目标网站的Web数据。3.根据权利要求2所述的Web数据采集方法，其特征在于，当所述集群中具有空闲资源时，控制网络爬虫使用所述空闲资源执行所述任务队列中的任务计划，以获取所述目标网站的Web数据，具体包括：基于所述空闲资源，获取所述目标网站的URL；将所述URL发送至下载器，以使所述下载器生成并返回所述URL对应的页面数据；处理所述页面数据，存储处理后的页面数据。4.根据权利要求2所述的Web数据采集方法，其特征在于，根据所述获取请求建立任务队列之后，还包括：根据预先设置的网络爬虫与网站的对应关系，获取所述目标网站对应的网络爬虫；获取设置的所述目标网站对应的网络爬虫的爬取周期，以使所述网络爬虫按照所述爬取周期进行所述Web数据的爬取。5.根据权利要求2至4中任一项所述的Web数据采集方法，其特征在于，所述任务队列为分布式消息传递异步的任务队列。6.一种Web数据采集系统，其特征在于，包括：布置单元，用于布置待加入虚拟机的爬虫环境；添加单元，用于获取所述待加入虚拟机的IP地址，并将...

【专利技术属性】
技术研发人员：韦立鹏，
申请(专利权)人：用友金融信息技术股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人