一种基于可靠队列服务的高效分布式爬虫系统设计技术方案

技术编号:16346233 阅读:76 留言:0更新日期:2017-10-03 22:26
本发明专利技术公开了一种基于可靠队列服务的高效分布式爬虫系统架构,涉及互联网金融公司行业资讯数据积累的技术核心。总体上采用分布式系统架构,将系统主要分成了7大模块,系统的核心模块:调度模块和抓取及页面解析模块通过基于binlog实现主从逻辑的可靠队列服务来进行通信。所有模块均可采用多点部署,并且对系统资源使用最多的模块“抓取及页面解析模块”是“无状态的”,一个或多个模块挂掉不影响系统整体的运行。同时,本系统还可以根据需要爬取的资源数量,动态的增加或减少相应模块部署的数量,且还可以通过配置平台模块来控制不同站点的抓取频率、抓取的结构化字段,对企业积累自己的资讯数据提供及时、个性化的强力保证。

【技术实现步骤摘要】
一种基于可靠队列服务的高效分布式爬虫系统设计
本专利技术涉及计算机软件领域,特别是涉及分布式信息抓取,行业数据积累使用场景。
技术介绍
随着信息技术的发展,人们获取信息的方式也越来越精进,人们不再只是通过报纸和电视来获取各种资讯信息,而是通过app应用来查看app应用提供商已经归纳好的资讯信息。这些app应用提供商中,当然也包括大部分互联网金融企业。爬⾍系统,⼜称作“网络蜘蛛系统”是⼀种按照⼀定的规则⾃动的从万维⽹中各个⽹站抓取信息的系统。互联⽹⾦融企业积累⾏业数据需要从⾏业相关站点抓取有价值的内容信息,因此都需要建⽴⾃⼰的⼀套爬⾍系统。爬虫系统利用万维网及时抓取企业所需要的资讯信息,通过对不同的抓取目标网站配置相应规则来实现个性化内容抓取。爬⾍系统设计是否优良主要看以下⼏个⽅⾯:(1)爬⾍系统的稳定性,即是否存在单点故障;(2)爬⾍系统的及时性,即站点新发布的内容是否在要求的时间内被系统抓取到;(3)爬⾍系统的伸缩性,即当需要爬取的站点增多或减少时,爬⾍系统是否能够轻易地通过增加或减少系统资源(系统资源包括:进程数,机器数量,外⽹带宽等等)来适应相应的爬取压⼒;(4)爬⾍系统的可控本文档来自技高网...
一种基于可靠队列服务的高效分布式爬虫系统设计

【技术保护点】
一种基于可靠队列服务的分布式爬虫系统,采用分布式系统架构。

【技术特征摘要】
1.一种基于可靠队列服务的分布式爬虫系统,采用分布式系统架构。2.系统整体可分成七大模块:调度模块、抓取及页面解析模块、附件处理模块、图片处理模块、监控模块、配置平台模块、http代理模块。3.系统的核心模块:调度模块和抓取及页面解析模块通过基于binlog实现主从同步的可靠队列服务来...

【专利技术属性】
技术研发人员:汤超叶奇陈平
申请(专利权)人:武汉楚鼎信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1