基于异步HTTP请求的可配置域名解析爬虫框架及方法技术

技术编号:21891116 阅读:58 留言:0更新日期:2019-08-17 14:12
本发明专利技术涉及一种基于异步HTTP请求的可配置域名解析爬虫框架及方法,包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。本发明专利技术极大程度的提升了系统运维人员的工作效率。

Configurable Domain Name Resolution Crawler Framework and Method Based on Asynchronous HTTP Request

【技术实现步骤摘要】
基于异步HTTP请求的可配置域名解析爬虫框架及方法
本专利技术涉及计算机领域,具体涉及一种基于异步HTTP请求的可配置域名解析爬虫框架及方法。
技术介绍
随着访问数量的增长及容灾的要求,WEB服务器的部署通常都会向异地多机房的部署方向发展。由此带来一个新的监控难点,如何监控每个机房提供的web服务是否正常。对于单一机房,可以利用爬虫,爬取网站的所有链接,对链接的响应时间、响应代码、响应内容进行检查。目前业内有许多优秀的爬虫框架都能实现此功能。但是,大部分框架都是针对域名进行操作,无法指定爬取指定的机房,无法保证爬虫能够遍历所有的机房。导致系统运维人员工作效率低下。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于异步HTTP请求的可配置域名解析爬虫框架及方法,极大程度的提升了系统运维人员的工作效率。为实现上述目的,本专利技术采用如下技术方案:一种基于异步HTTP请求的可配置域名解析爬虫框架,包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。进一步的,所述爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。进一步的,基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,包括以下步骤:步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中;步骤S2:启动驱动模块,驱动模块从爬虫模块获取入口链接,将链接发送给链接调度模块;步骤S3:链接调度模块将所有URL请求包装成请求对象数组,并发送给HTTP通讯模块;步骤S4:HTTP通讯模块接收到请求对象数组,异步请求所有的链接;待所有响应返回后,将响应结果存放到数组中,返回给链路调度模块;步骤S5:链路调度模块将所有响应封装成响应对象,依据不同的域名,传递给对应的爬虫组件进行处理;步骤S6:爬虫模块对响应结果进行解析,可以抽取链接返回给驱动模块进行递归爬取,将响应结果中的内容解析成结果对象,返回给驱动模块;步骤S7:驱动模块将结果对象传递给持久化模块,持久化模块接收到结果对象后,对结果对象进行输出处理。步骤S8:驱动模块继续将链接传递给链接调度模块,重新开始步骤S3,循环至预设递归次数内没有新的链接产生。本专利技术与现有技术相比具有以下有益效果:1.本专利技术通过绑定不同的机房IP到域名,让爬虫可以对所有机房的页面进行检查。2、本专利技术爬虫采用异步HTTP通讯框架,提高爬虫效率。附图说明图1是本专利技术爬虫框架原理图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。请参照图1,本专利技术提供一种基于异步HTTP请求的可配置域名解析爬虫框架,包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;在本实施例中,域名解析控制,用于控制本地的域名解析结果,会依据当前操作系统类型,配置对应的文件;驱动模块,用于处理整个系统的数据流,控制数据在不通组件之间交互;链接调度模块,用于接收驱动模块发送过来的链接,将链接包装成请求对象,依据配置的规则决定链接的请求顺序,并且对链接进行去重处理;模块同时接收HTTP通讯模块返回的响应结果,并将结果封装成响应对象。HTTP通讯模块,负责接收链路调度模块发送过来的请求,并通过底层的异步通讯框架将请求发送到服务器,待响应后,将响应返回给链路调度模块。爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。持久化组件,接收到驱动模块转发过来的结果对象后,负责对象的输出处理,可以写文件,写数据库,或者只是简单的控制台输出。在本实施例中,基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,包括以下步骤:步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中;步骤S2:启动驱动模块,驱动模块从爬虫模块获取入口链接,将链接发送给链接调度模块;步骤S3:链接调度模块将所有URL请求包装成请求对象数组,并发送给HTTP通讯模块;步骤S4:HTTP通讯模块接收到请求对象数组,异步请求所有的链接;待所有响应返回后,将响应结果存放到数组中,返回给链路调度模块;步骤S5:链路调度模块将所有响应封装成响应对象,依据不同的域名,传递给对应的爬虫组件进行处理;步骤S6:爬虫模块对响应结果进行解析,可以抽取链接返回给驱动模块进行递归爬取,将响应结果中的内容解析成结果对象,返回给驱动模块;步骤S7:驱动模块将结果对象传递给持久化模块,持久化模块接收到结果对象后,对结果对象进行输出处理。步骤S8:驱动模块继续将链接传递给链接调度模块,重新开始步骤S3,循环至预设递归次数内没有新的链接产生。以上所述仅为本专利技术的较佳实施例,凡依本专利技术申请专利范围所做的均等变化与修饰,皆应属本专利技术的涵盖范围。本文档来自技高网...

【技术保护点】
1.一种基于异步HTTP请求的可配置域名解析爬虫框架,其特征在于:包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。

【技术特征摘要】
1.一种基于异步HTTP请求的可配置域名解析爬虫框架,其特征在于:包括域名解析控制模块、驱动模块、持久化模块、链接调度模块、爬虫模块和HTTP通讯模块;所述驱动模块与域名解析控制模块、持久化模块盒链接调度模块分别链接,控制数据在不通组件之间交互;所述链接调度模块与HTTP模块数据链接。2.根据权利要求1所述的基于异步HTTP请求的可配置域名解析爬虫框架,其特征在于:所述爬虫模块对不同的域名框架创建不同的爬虫组件,爬虫组件负责解析响应对象,抽取响应对象中的链接,或是解析响应对象中的响应内容并包装成处理结果对象。3.根据权利要求1所述的基于异步HTTP请求的可配置域名解析爬虫框架的控制方法,其特征在于,包括以下步骤:步骤S1:域名解析模块从配置文件或是命令行中读取域名与IP的映射配置,将配置写到操作系统对应文件中...

【专利技术属性】
技术研发人员:朱喜娜
申请(专利权)人:厦门大学嘉庚学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1