Web数据采集方法和Web数据采集系统技术方案

技术编号:17917897 阅读:42 留言:0更新日期:2018-05-10 21:37
本发明专利技术提出了一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。其中,Web数据采集方法包括:布置待加入虚拟机的爬虫环境;获取待加入虚拟机的IP地址,并将IP地址添加至主节点配置中;控制主机更新运行脚本,以使待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到待加入虚拟机的任务启动指令,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本发明专利技术实现了数据源大量增加时,Web数据爬取上和存储上的横向扩展,提高了爬取数据和存储数据的效率,在有限的时间内完成数据的采集。

【技术实现步骤摘要】
Web数据采集方法和Web数据采集系统
本专利技术涉及Web数据采集
,具体而言,涉及一种Web数据采集方法、Web数据采集系统、计算机设备、计算机可读存储介质。
技术介绍
无论是数据分析还是舆情系统都是针对数据,数据采集是基础,数据获取方式自有数据,网络上数据,如果业务涉及网络上数据,需要企业自己爬取,单机的爬取对于大量的web数据处理时间过慢,不能满足业务的需求,传统数据库对于大数据量数据存储和查询性能越来越不能满足现在的软件业务需求。因此,如何实现一种支持无限横向扩展的Web数据采集方法和Web数据采集系统成为亟待解决的问题。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术第一个方面在于提出一种Web数据采集方法。本专利技术的第二个方面在于提出一种Web数据采集系统。本专利技术的第三个方面在于提出一种计算机设备。本专利技术的第四个方面在于提出一种计算机可读存储介质。有鉴于此,根据本专利技术的一个方面,提出了一种Web数据采集方法,包括:布置待加入虚拟机的爬虫环境;获取待加入虚拟机的IP地址,并将IP地址添加至主节点配置中;控制主机更新运行脚本,以使待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到待加入虚拟机的任务启动指令,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本专利技术提供的Web数据采集方法,通过调度平台进行管理,布置带加入的虚拟机的爬虫环境,以使待加入虚拟机的加入数据采集的集群中可以进行爬取数据,获取搭建好爬虫环境的虚拟机的IP地址,将IP地址加入到主角点的配置中,然后控制主句更新运行脚本,使得所有机器(待加入的虚拟机和已经加入的虚拟机)都从开源的分布式版本控制系统GIT端获取最新的运行代码,当接收到待加入虚拟机的任务启动指令时,根据最新的运行代码执行任务启动指令,如此,待加入虚拟机就加入到爬取网站的集群中开始Web数据采集,本专利技术在数据源大量增加时,新增的worker节点只需要启动任务即可加入到数据采集的集群中,实现了Web数据爬取上和存储上的横向扩展,提高了爬取数据和存储数据的效率,在有限的时间内完成数据的采集。另外本专利技术还可以定时进行数据采集,可以轻松切换生产和测试环境。根据本专利技术的上述Web数据采集方法,还可以具有以下技术特征:在上述技术方案中,优选地,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集之后,还包括:接收目标网站的Web数据获取请求;根据获取请求建立任务队列;当集群中具有空闲资源时,控制网络爬虫使用空闲资源执行任务队列中的任务计划,以获取目标网站的Web数据。在该技术方案中,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集之后,在接收到目标网站的Web数据获取请求,开始进行数据采集爬取,根据获取的数据请求建立任务队列,使用调度框架进行集群的爬虫资源的分配,当集群中具有空闲的资源时,控制网络爬虫使用空闲资源从消息队列中获取任务计划,执行获取目标网站数据的任务,使用redis作为任务消息的运输机,实现了对实时任务队列的处理以及任务的调度。在上述任一技术方案中,优选地,当集群中具有空闲资源时,控制网络爬虫使用空闲资源执行任务队列中的任务计划,以获取目标网站的Web数据,具体包括:基于空闲资源,获取目标网站的URL;将URL发送至下载器,以使下载器生成并返回URL对应的页面数据;处理页面数据,存储处理后的页面数据。在该技术方案中,当集群中具有空闲资源,控制爬虫执行任务队列中任务计划的过程,实现基于空闲的资源,首先获取目标网站的URL,并在调度器中以Request的形式进行调度,将URL通过下载中间件转发给下载器,下载器下载URL对应的页面数据,生成该页面的Response,然后再通过下载中间件返回,处理页面数据,对火速局进行清理。验证及持久化,存储到底层的数据存储系统,实现了数据流的控制,完成大量的数据采集。在上述任一技术方案中,优选地,根据获取请求建立任务队列之后,还包括:根据预先设置的网络爬虫与网站的对应关系,获取目标网站对应的网络爬虫;获取设置的目标网站对应的网络爬虫的爬取周期,以使网络爬虫按照爬取周期进行Web数据的爬取。在该技术方案中,在整个数据爬取过程开始之前,设置网络爬虫与目标网站的对应关系,每个网络爬虫负责处理一个或一些特定的目标网站,根据网络爬虫与目标网站的对应关系,获取本此数据爬取的目标网站的网络爬虫,获取设置网络爬虫的爬取周期,可以是按天爬取,按小时爬取,按周爬取,根据设置的爬取周期进行数据的爬取,如此,实现了自由定义爬取数据的时间周期,定时进行数据爬取,实现数据爬取的自动化。在上述任一技术方案中,优选地,任务队列为分布式消息传递异步的任务队列。在该技术方案中,在进行数据采集过程中,根据数据请求建立的任务队列为分布式消息传递异步的任务队列,如此,可实现大量消息的分布式处理。提高了任务处理的高效性以及数据处理的灵活性、可靠性。根据本专利技术的第二个方面,提出了一种Web数据采集系统,包括:布置单元,用于布置待加入虚拟机的爬虫环境;添加单元,用于获取待加入虚拟机的IP地址,并将IP地址添加至主节点配置中;更新单元,用于控制主机更新运行脚本,以使待加入虚拟机和已加入虚拟机获取最新运行代码;启动单元,用于当接收到待加入虚拟机的任务启动指令,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。本专利技术提供的Web数据采集系统,通过调度平台进行管理,布置单元布置带加入的虚拟机的爬虫环境,以使待加入虚拟机的加入数据采集的集群中可以进行爬取数据,添加单元获取搭建好爬虫环境的虚拟机的IP地址,将IP地址加入到主角点的配置中,然后更新单元控制主句更新运行脚本,使得所有机器(待加入的虚拟机和已经加入的虚拟机)都从开源的分布式版本控制系统GIT端获取最新的运行代码,启动单元当接收到待加入虚拟机的任务启动指令时,根据最新的运行代码执行任务启动指令,如此,待加入虚拟机就加入到爬取网站的集群中开始Web数据采集,本专利技术在数据源大量增加时,新增的worker节点只需要启动任务即可加入到数据采集的集群中,实现了Web数据爬取上和存储上的横向扩展,提高了爬取数据和存储数据的效率,在有限的时间内完成数据的采集。另外本专利技术还可以定时进行数据采集,可以轻松切换生产和测试环境。根据本专利技术的上述Web数据采集系统,还可以具有以下技术特征:在上述技术方案中,优选地,请求单元,用于接收目标网站的Web数据获取请求;建立单元,用于根据获取请求建立任务队列;控制单元,用于当集群中具有空闲资源时,控制网络爬虫使用空闲资源执行任务队列中的任务计划,以获取目标网站的Web数据。在该技术方案中,根据最新运行代码执行任务启动指令,以使待加入虚拟机加入至爬取网站的集群中并开始Web数据采集之后,在请求单元接收到目标网站的Web数据获取请求,开始进行数据采集爬取,建立单元根据获取的数据请求建立任务队列,使用调度框架进行集群的爬虫资源的分配,当集群中具有空闲的资源时,控制单元控制网络爬虫使用空闲资源从消息队列中获取本文档来自技高网...
Web数据采集方法和Web数据采集系统

【技术保护点】
一种Web数据采集方法,其特征在于,包括:布置待加入虚拟机的爬虫环境;获取所述待加入虚拟机的IP地址,并将所述IP地址添加至主节点配置中;控制主机更新运行脚本,以使所述待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到所述待加入虚拟机的任务启动指令,根据所述最新运行代码执行所述任务启动指令,以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。

【技术特征摘要】
1.一种Web数据采集方法,其特征在于,包括:布置待加入虚拟机的爬虫环境;获取所述待加入虚拟机的IP地址,并将所述IP地址添加至主节点配置中;控制主机更新运行脚本,以使所述待加入虚拟机和已加入虚拟机获取最新运行代码;当接收到所述待加入虚拟机的任务启动指令,根据所述最新运行代码执行所述任务启动指令,以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集。2.根据权利要求1所述的Web数据采集方法,其特征在于,根据所述最新运行代码执行所述任务启动指令,以使所述待加入虚拟机加入至爬取网站的集群中并开始Web数据采集之后,还包括:接收目标网站的Web数据获取请求;根据所述Web数据获取请求建立任务队列;当所述集群中具有空闲资源时,控制网络爬虫使用所述空闲资源执行所述任务队列中的任务计划,以获取所述目标网站的Web数据。3.根据权利要求2所述的Web数据采集方法,其特征在于,当所述集群中具有空闲资源时,控制网络爬虫使用所述空闲资源执行所述任务队列中的任务计划,以获取所述目标网站的Web数据,具体包括:基于所述空闲资源,获取所述目标网站的URL;将所述URL发送至下载器,以使所述下载器生成并返回所述URL对应的页面数据;处理所述页面数据,存储处理后的页面数据。4.根据权利要求2所述的Web数据采集方法,其特征在于,根据所述获取请求建立任务队列之后,还包括:根据预先设置的网络爬虫与网站的对应关系,获取所述目标网站对应的网络爬虫;获取设置的所述目标网站对应的网络爬虫的爬取周期,以使所述网络爬虫按照所述爬取周期进行所述Web数据的爬取。5.根据权利要求2至4中任一项所述的Web数据采集方法,其特征在于,所述任务队列为分布式消息传递异步的任务队列。6.一种Web数据采集系统,其特征在于,包括:布置单元,用于布置待加入虚拟机的爬虫环境;添加单元,用于获取所述待加入虚拟机的IP地址,并将...

【专利技术属性】
技术研发人员:韦立鹏
申请(专利权)人:用友金融信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1