一种网页数据采集方法、装置、系统及介质制造方法及图纸

技术编号：28837923 阅读：21 留言：0更新日期：2021-06-11 23:35

本发明专利技术公开了一种网页数据采集方法、装置、系统及介质，方法包括：接收网页数据采集请求并生成相应的采集配置文件；根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；对所述目标网页数据进行分类过滤后存储至预设数据库。本发明专利技术实施例通过将生成的网络爬虫形成消息列队，在进行数据采集时通过派发采集任务控制所述消息列队中的网络爬虫协同采集，使得能根据实际服务器资源负载灵活调整网络爬虫的采集任务，有效均衡了网页数据采集时的服务器资源负载。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页数据采集方法、装置、系统及介质
本专利技术涉及互联网
，尤其涉及一种网页数据采集方法、装置、系统及介质。
技术介绍
在制作新网页时，由于是新搭建的没有任何数据的网址，需要开发人员按需求在新网址中填充例如新闻等内容，如果采用人工手动上传则会产生很大的人力物力成本，而采用搜索引擎能更加快速地获取相关网络信息。搜索引擎从互联网上搜集信息的过程主要依赖于网络爬虫对网站信息的爬取，然而目前的网络爬虫采集过程缺乏协同控制，导致数据采集过程服务器资源负载不均衡。因此，现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足，本专利技术的目的在于提供一种网页数据采集方法、装置、系统及介质，旨在解决现有技术中网页数据采集中缺乏协同控制服务器资源分配不均衡的问题。本专利技术的技术方案如下：一种网页数据采集方法，其包括如下步骤：接收网页数据采集请求并生成相应的采集配置文件；根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；对所述目标网页数据进行分类过滤后存储至预设数据库。所述的网页数据采集方法中，所述接收网页数据采集请求并生成相应的采集配置文件，具体包括：接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件。所述的网页数据采集方法中，所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消...

【技术保护点】
1.一种网页数据采集方法，其特征在于，包括如下步骤：/n接收网页数据采集请求并生成相应的采集配置文件；/n根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；/n通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；/n对所述目标网页数据进行分类过滤后存储至预设数据库。/n

【技术特征摘要】
1.一种网页数据采集方法，其特征在于，包括如下步骤：
接收网页数据采集请求并生成相应的采集配置文件；
根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队；
通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据；
对所述目标网页数据进行分类过滤后存储至预设数据库。

2.根据权利要求1所述的网页数据采集方法，其特征在于，所述接收网页数据采集请求并生成相应的采集配置文件，具体包括：
接收用户输入的网页数据采集请求并根据所述网页数据采集请求中的采集目标生成相应的采集配置文件。

3.根据权利要求2所述的网页数据采集方法，其特征在于，所述根据所述采集配置文件生成若干个相应的网络爬虫并形成消息列队，包括：
对所述采集配置文件进行解析，获取所述采集配置文件中的配置信息；
根据所述配置信息生成若干个与所述配置信息匹配的网络爬虫；
将所有的网络爬虫加入预先建立的消息列队中。

4.根据权利要求3所述的网页数据采集方法，其特征在于，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据之前，还包括：
将所述消息列队中的网络爬虫按预设分配规则分配至具有预设架构的若干服务器中。

5.根据权利要求4所述的网页数据采集方法，其特征在于，所述通过派发的采集任务控制所述消息列队中的网络爬虫协同采集，获取目标网页数据，包括：
检测各个服务器当前的资源占用率并派发采集任务；
根据接收到的采集...

【专利技术属性】
技术研发人员：叶世立，
申请(专利权)人：深圳九星互动科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人