当前位置: 首页 > 专利查询>山东大学专利>正文

基于Docker的Web数据采集方法、Web服务器及Web数据采集系统技术方案

技术编号:14893991 阅读:121 留言:0更新日期:2017-03-29 04:29
本发明专利技术公开了一种基于Docker的Web数据采集方法、Web服务器及Web数据采集系统,其中Web数据采集方法在Web服务器内完成,包括基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。

【技术实现步骤摘要】

本专利技术属于互联网Web数据处理领域,尤其涉及一种基于Docker的Web数据采集方法、Web服务器及Web数据采集系统
技术介绍
网络技术的迅猛发展,使得互联网已经成为主要信息的载体,充分、有效地提取这些信息是当今互联网信息收集工作的重点、难点。数据采集技术应运而生,该技术能够集中解决从数据源中提取关键信息的问题。目前,国内外的大型互联网公司、相关研究机构已经给出了一些较为成熟的解决方案,有些也己投入使用,但是这些方案大都是通过建立一台主节点、部署数量固定的工作节点来实现,在资源利用方面及其不稳定。如我们所知,在传统实践中大规模服务器架构的方式中,当需要采集数量较少的数据源时,已经部署的工作节点只能有一部分任务,另外一部分保持空闲,导致资源浪费;而当需要采集数量较多时,已经部署的工作节点不足以满足采集任务的需求,那么采取增加部署工作节点或者待其他工作节点任务完成后再分配其他任务的方式解决,这样严重影响Web数据采集系统的健壮性和稳定性。超轻量虚拟机Docker(以下简称Docker)可以把应用实例及其依赖环境打包到一个可移植容器中,根据需求自由创建镜像并发布到任何流行的Linux机器上,并且Docker可以创建大量的镜像容器,完全可以替代数据采集过程中的工作节点。因此,借助Docker平台,将Web数据采集系统架构在Docker之上,转变传统实践中大规模服务器架构的方式,提高数据采集的规范化程度,提高Web数据采集系统的健壮性和普适性,实现Web数据采集系统的可扩展性,对于系统可扩展性、为设备减耗提供便利成为本领域一个急需解决的问题。
技术实现思路
了解决现有技术的缺点,本专利技术提供一种基于Docker的Web数据采集方法、Web服务器及Web数据采集系统。本专利技术可有效解决现有技术中存在的Web数据采集系统可扩展性不理想的问题。为实现上述目的,本专利技术采用以下技术方案:一种基于Docker的Web数据采集方法,该方法在Web服务器内完成,具体包括以下步骤:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。本专利技术通过借助超轻量虚拟机Docker平台,将传统Web数据采集系统架构在Docker平台之上,根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点的健壮性和普适性。数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制定的规则分配给各数据采集工作节点。当数据采集工作节点被分配于URL后,将针对该URL所提前制定的规则传递给该数据采集工作节点,以用于更好、更方便的进行数据采集。数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数据采集工作节点。数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集工作节点。分布式消息中间件的优势是:发送方、接收方系统之间不需要了解双方,只需认识消息;而且数据采集主节点可以同时发送各数据采集工作节点相对应的数据源IP地址和URL,节省了任务分配时间,从而达到了加快Web数据采集的速度的目的。该方法还包括:数据采集工作节点完成Web数据采集后,通过分布式消息中间件告知数据采集主节点已处于空闲状态并向数据采集主节点请求新的URL。该方法还包括:数据采集主节点实时检测数据源IP地址访问异常数据;当数据采集主节点检测到数据源IP地址访问异常数据时,数据采集主节点向数据源IP地址所对应的数据采集工作节点发送结束采集命令。本专利技术能够更高效实现web数据采集的Web服务器的可扩展性,并通过加强对整个数据采集过程中的监控管理,实现整个数据采集过程稳定进行。一种基于Docker的Web数据采集的Web服务器,包括数据采集节点构建模块,其用于基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;其中,数据采集主节点,其用于接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点用于将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点还用于接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。所述Web服务器还包括异常监控模块,其用于监控数据采集主节点及工作状态下的数据采集工作节点的运行状态,当数据采集主节点或工作状态下的数据采集工作节点出现异常状态时,输出异常报警信号至客户端。一种基于Docker的Web数据采集系统,包括所述的Web服务器;Web数据采集任务发送端,其用于将Web数据采集任务发送至数据采集主节点。所述基于Docker的Web数据采集系统还包括客户端,其用于接收Web服务器输出的异常报警信号。本专利技术的有益效果为:(1)本专利技术通过借助超轻量虚拟机Docker平台,基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点,将传统Web数据采集系统架构在Docker平台之上;根据任务量大小,创建启动多种搭配方式数量的数据采集工作节点,转变传统大规模服务器架构方式,实现Web数据采集系统可扩展性,提高数据采集工作节点的健壮性和普适性;(2)本专利技术在借助超轻量虚拟机Docker平台过程中,本专利技术还针对运行过程中数据采集主节点及数据采集工作节点运行异常、数据采集工作节点受到反采集限制问题进行监控管理,确保整个数据采集过程稳定进行。附图说明图1是本专利技术的基于Docker的Web数据采集方法的实施例一流程图;图2是本专利技术的基于Docker的Web数据采集方法的实施例二流程图;图3是本专利技术的基于Docker的Web数据采集的Web服务器的结构示意图;图4是本专利技术的基于Docker的Web数据采集系统结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。本专利技术的Docker是一种轻量级虚拟机。图1是本专利技术的基于Docker的Web数据采集方法的实施例一流程图,该方法在Web服务器内完成,如图1所示,具体包括以下步骤:步骤1:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信。步骤2:数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据本文档来自技高网...
基于Docker的Web数据采集方法、Web服务器及Web数据采集系统

【技术保护点】
一种基于Docker的Web数据采集方法,其特征在于,该方法在Web服务器内完成,具体包括以下步骤:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。

【技术特征摘要】
1.一种基于Docker的Web数据采集方法,其特征在于,该方法在Web服务器内完成,具体包括以下步骤:基于Docker创建镜像容器,由镜像容器构建出一个数据采集主节点和若干个数据采集工作节点;所述数据采集主节点与数据采集工作节点相互通信;数据采集主节点接收Web数据采集任务,并根据Web数据采集任务中URL的数量来启动预设数量的数据采集工作节点;Web数据采集任务包括数据源IP地址和URL;数据采集工作节点启动后,数据采集主节点将数据源IP地址和URL分配给各数据采集工作节点,由数据采集工作节点采集相应的Web数据;数据采集主节点接收各数据采集工作节点传送来的数据,并回收所有数据采集工作节点,完成Web数据的采集。2.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点还接收URL预先制定的规则,并将接收的URL预先制定的规则分配给各数据采集工作节点。3.如权利要求2所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点通过分布式消息中间件将URL预先制定的规则分配给各数据采集工作节点。4.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,数据采集主节点通过分布式消息中间件将数据源IP地址和URL分配给各数据采集工作节点。5.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,该方法还包括:数据采集工作节点完成Web数据采集后,通过分布式消息中间件告知数据采集主节点已处于空闲状态并向数据采集主节点请求新的URL。6.如权利要求1所述的一种基于Docker的Web数据采集方法,其特征在于,该方法还包括:数据采集主节...

【专利技术属性】
技术研发人员:边俊峰钱进闵新平郭伟崔立真
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1