一种分布式的聚焦网络爬虫网页爬取方法及系统技术方案

技术编号：17346424 阅读：39 留言：0更新日期：2018-02-25 11:42

本发明专利技术公开了一种分布式的聚焦网络爬虫网页爬取方法及系统；本方法为：1)根据种子任务获取数据抓取的入口链接，生成待下载任务；2)根据该待下载任务获取对应的网页数据；3)从网页数据中提取出设定的目标结构化数据；其中，解析调度模块将待解析任务从待解析任务队列取出，通过负载均衡发送给解析模块；解析模块根据解析任务中的信息获取匹配的解析模板，从获取的所述网页数据中解析出目标结构化数据；为每一设定网站设置一对应的解析模板，解析模板为若干正则表达式组成的XML格式的文件，每一正则表达式均能从网页数据中匹配出目标结构化数据的一个属性。本发明专利技术大大提升数据抓取效率，具有高度的内聚性和透明性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式的聚焦网络爬虫网页爬取方法及系统
本专利技术属于网络爬虫领域，具体涉及一种分布式的聚焦网络爬虫网页爬取方法及系统，能够对不同网站发送不同方式的请求，解析不同结构的数据。
技术介绍
网络爬虫能够有效使用现有的各种资源自动抓取互联网中大量网页信息的程序，有时也被叫成“网络蜘蛛(Spider)”。聚焦网络爬虫也可被称为主题网络爬虫，是有目的地爬取数据，根据特定的主题来爬取相关的页面。与通用网络爬虫相比，这类爬虫并不是漫无目的地爬取整个网络的数据，而是选择性的爬取，这样既能减少爬取网页的数量，同时也提升了网页更新的效率，从而使得这类爬虫对爬取速度和存储空间的要求不是很高，但是需要有良好的爬行策略来评价页面或链接是否需要被爬取。由于聚焦网络爬虫爬取过程中需要获取请求URL、发送WEB请求下载页面、从网页中解析结构化数据、重复数据过滤、种子任务处理5个环节，每个环节消耗资源各不相同，且每个环节出现问题都会影响整个爬虫系统效率及稳定性。另外，随着互联网技术的日新月异，网站越来越多，信息越来越多，而且大部分网站数据均为异步请求；或是部分网站在服务端对数据进行加密处理，前端执行JS脚本对数据解密处理，因此缺少一种兼容各种网站、各类数据的爬虫系统。
技术实现思路
本专利技术提出一种分布式的聚焦网络爬虫网页爬取方法及聚焦网络爬虫系统，能够支持多种类型的网页请求方式，结构化数据解析配置灵活。爬取过程模块化、职能化，大大提升数据抓取效率，具有高度的内聚性和透明性。本专利技术将分布式技术利用到聚焦网络爬虫系统中，将5个处理环节模块化并且每个模块职能单一，从而提高了整个系统的工作...
一种分布式的聚焦网络爬虫网页爬取方法及系统

【技术保护点】
一种分布式的聚焦网络爬虫网页爬取方法，其步骤包括：1)任务生成模块根据种子任务获取数据抓取的入口链接，生成待下载任务；2)网页下载模块根据该待下载任务获取对应的网页数据；3)网页解析模块从所述网页数据中提取出设定的目标结构化数据；其中，所述网页解析模块包括一解析调度模块和若干解析模块；所述解析调度模块，用于将待解析任务从待解析任务队列取出，通过负载均衡发送给解析模块；所述解析模块，用于根据解析任务中的信息获取匹配的解析模板，从获取的所述网页数据中解析出目标结构化数据；为每一设定网站设置一对应的解析模板，所述解析模板为若干正则表达式组成的XML格式的文件，每一正则表达式均能从所述网页数据中匹配出目标结构化数据的一个属性。

【技术特征摘要】
1.一种分布式的聚焦网络爬虫网页爬取方法，其步骤包括：1)任务生成模块根据种子任务获取数据抓取的入口链接，生成待下载任务；2)网页下载模块根据该待下载任务获取对应的网页数据；3)网页解析模块从所述网页数据中提取出设定的目标结构化数据；其中，所述网页解析模块包括一解析调度模块和若干解析模块；所述解析调度模块，用于将待解析任务从待解析任务队列取出，通过负载均衡发送给解析模块；所述解析模块，用于根据解析任务中的信息获取匹配的解析模板，从获取的所述网页数据中解析出目标结构化数据；为每一设定网站设置一对应的解析模板，所述解析模板为若干正则表达式组成的XML格式的文件，每一正则表达式均能从所述网页数据中匹配出目标结构化数据的一个属性。2.如权利要求1所述的方法，其特征在于，所述网页下载模块包括一下载器调度模块和若干下载器模块；所述下载器调度模块根据当前可用的下载器模块数量从待下载任务队列中获取待下载任务并分发给可用的下载器模块，以及接收下载器模块下载完成的任务并将其添加到待解析任务队列；所述下载器调度模块为每一下载器模块设置一最大并发上限，当该下载器模块请求同一个网站的并发数达到该下载器模块的最大并发上限时，所述下载器调度模块将其余访问该网站的任务分发给另一个并发数未达到上限的下载器模块。3.如权利要求2所述的方法，其特征在于，所述下载器模块将自身信息注册到一分布式的应用程序协调服务Zookeeper中，所述下载器调度模块从应用程序协调服务Zookeeper中获取当前可用的下载器模块；所述应用程序协调服务Zookeeper中用于配置维护、域名服务、分布式同步、组服务。4.如权利要求2或3所述的方法，其特征在于，所述下载器调度模块与所述下载器模块之间采用Socket通信机制进行通信；所述下载器调度模块利用应用程序协调服务Zookeeper中的心跳检测机制检测下载器模块的运行状态，当一下载器模块停止运行时，所述下载器调度模块不再给该下载器模块分发待下载任务。5.如权利要求1所述的方法，其特征在于，所述解析调度模块与所述解析模块之间通过Nginx负载均衡实现任务调用。6.如权利要求1所述的方法，其特征在于，通过一排重模块监测当前获取的所述目标结构...

【专利技术属性】
技术研发人员：倪学峰，于海群，暴筱，张猛，林小俊，
申请(专利权)人：北京众荟信息技术股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人