一种网页数据采集方法、装置、系统及介质制造方法及图纸

技术编号:28837923 阅读:21 留言:0更新日期:2021-06-11 23:35
本发明专利技术公开了一种网页数据采集方法、装置、系统及介质,方法包括:接收网页数据采集请求并生成相应的采集配置文件;根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;对所述目标网页数据进行分类过滤后存储至预设数据库。本发明专利技术实施例通过将生成的网络爬虫形成消息列队,在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集,使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务,有效均衡了网页数据采集时的服务器资源负载。

【技术实现步骤摘要】
一种网页数据采集方法、装置、系统及介质
本专利技术涉及互联网
,尤其涉及一种网页数据采集方法、装置、系统及介质。
技术介绍
在制作新网页时,由于是新搭建的没有任何数据的网址,需要开发人员按需求在新网址中填充例如新闻等内容,如果采用人工手动上传则会产生很大的人力物力成本,而采用搜索引擎能更加快速地获取相关网络信息。搜索引擎从互联网上搜集信息的过程主要依赖于网络爬虫对网站信息的爬取,然而目前的网络爬虫采集过程缺乏协同控制,导致数据采集过程服务器资源负载不均衡。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种网页数据采集方法、装置、系统及介质,旨在解决现有技术中网页数据采集中缺乏协同控制服务器资源分配不均衡的问题。本专利技术的技术方案如下:一种网页数据采集方法,其包括如下步骤:接收网页数据采集请求并生成相应的采集配置文件;根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;对所述目标网页数据进行分类过滤后存储至预设数据库。所述的网页数据采集方法中,所述接收网页数据采集请求并生成相应的采集配置文件,具体包括:接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件。所述的网页数据采集方法中,所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队,包括:对所述采集配置文件进行解析,获取所述采集配置文件中的配置信息;根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫;将所有的网络爬虫加入预先建立的消息列队中。所述的网页数据采集方法中,所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据之前,还包括:将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中。所述的网页数据采集方法中,所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据,包括:检测各个服务器当前的资源占用率并派发采集任务;根据接收到的采集任务控制相应的网络爬虫开启采集,直到采集完成获取目标网页数据。所述的网页数据采集方法中,所述检测各个服务器当前的资源占用率并派发采集任务,具体包括:检测各个服务器当前的资源占用率并按资源占用率由低到高的顺序派发采集任务。所述的网页数据采集方法中,所述配置信息包括网站信息、信息类型、字段信息提取规则中的至少一项。本专利技术又一实施例还提供了一种网页数据采集装置,所述装置包括:配置模块,用于接收网页数据采集请求并生成相应的采集配置文件;生成模块,用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;控制模块,用于根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;存储模块,用于对所述目标网页数据进行分类过滤后存储至预设数据库。本专利技术又一实施例还提供了一种网页数据采集系统,所述系统包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述网页数据采集方法。本专利技术的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的网页数据采集方法。本专利技术的另一实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行上述的网页数据采集方法。有益效果:本专利技术公开了一种网页数据采集方法、装置、系统及介质,相比于现有技术,本专利技术实施例通过将生成的网络爬虫形成消息列队,在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集,使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务,有效均衡了网页数据采集时的服务器资源负载。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1为本专利技术提供的网页数据采集方法较佳实施例的流程图;图2为本专利技术提供的网页数据采集装置较佳实施例的功能模块示意图;图3为本专利技术提供的网页数据采集系统较佳实施例的硬件结构示意图。具体实施方式为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合附图对本专利技术实施例进行介绍。请参阅图1,图1为本专利技术提供的网页数据采集方法较佳实施例的流程图。如图1所示,其包括如下步骤:S100、接收网页数据采集请求并生成相应的采集配置文件;S200、根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;S300、通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;S400、对所述目标网页数据进行分类过滤后存储至预设数据库。本实施例中,当对新搭建的网址进行内容填充时,需要大量采集网页数据提高填充效率,此时通过终端向服务器发送网页数据采集请求,例如在检测到预设的网页数据采集操作时,触发网页数据采集请求,具体所述网页数据采集请求中包含有采集目标,例如待采集的目标网站和采集规则等,根据所述采集目标生成相应的采集配置文件;之后根据所述采集配置文件生成若干个相应的网络爬虫,其中所述网络爬虫是一种按预设规则自动抓取网络数据的程序或脚本,将生成的所有网络爬虫形成一消息列队,在进行数据采集时,向各个网络爬虫派发相应的采集任务从而控制网络爬虫进行协同采集获取目标网页数据,通过派发任务控制网络爬虫协同工作的方式,当网络爬虫在不同的服务器中工作时,可根据服务器当前资源负载情况灵活控制各个网络爬虫的工作状态,有效均衡了不同服务器之间的资源,提高数据采集效率和可靠性;获取了目标网页数据后则进一步进行分类过滤后存储至预设数据库,得到类型明确且过滤了无用信息的网页数据以用于后续的网址内容填充,使得新网址搭建时可进行快速高效且内容明确的数据填充,节约人力物力成本。进一步地,所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队,包括:对所述采集配置文件进行解析,获取所述采集配置文件中的配置信息;根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫;将所有的网络爬虫加入预先建立的消息列队中。本实施例中,根据采集目标生成的采集配置文件中包括有多项配置信息,例如包括网站信息、信息类型、字段信息提取规则中的至少一项,其中所述网站信息包括站点名称、网站首页的链接地址、网页数本文档来自技高网...

【技术保护点】
1.一种网页数据采集方法,其特征在于,包括如下步骤:/n接收网页数据采集请求并生成相应的采集配置文件;/n根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;/n通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;/n对所述目标网页数据进行分类过滤后存储至预设数据库。/n

【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括如下步骤:
接收网页数据采集请求并生成相应的采集配置文件;
根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队;
通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据;
对所述目标网页数据进行分类过滤后存储至预设数据库。


2.根据权利要求1所述的网页数据采集方法,其特征在于,所述接收网页数据采集请求并生成相应的采集配置文件,具体包括:
接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件。


3.根据权利要求2所述的网页数据采集方法,其特征在于,所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队,包括:
对所述采集配置文件进行解析,获取所述采集配置文件中的配置信息;
根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫;
将所有的网络爬虫加入预先建立的消息列队中。


4.根据权利要求3所述的网页数据采集方法,其特征在于,所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据之前,还包括:
将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中。


5.根据权利要求4所述的网页数据采集方法,其特征在于,所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集,获取目标网页数据,包括:
检测各个服务器当前的资源占用率并派发采集任务;
根据接收到的采集...

【专利技术属性】
技术研发人员:叶世立
申请(专利权)人:深圳九星互动科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1