【技术实现步骤摘要】
一种基于可靠队列服务的高效分布式爬虫系统设计
本专利技术涉及计算机软件领域,特别是涉及分布式信息抓取,行业数据积累使用场景。
技术介绍
随着信息技术的发展,人们获取信息的方式也越来越精进,人们不再只是通过报纸和电视来获取各种资讯信息,而是通过app应用来查看app应用提供商已经归纳好的资讯信息。这些app应用提供商中,当然也包括大部分互联网金融企业。爬⾍系统,⼜称作“网络蜘蛛系统”是⼀种按照⼀定的规则⾃动的从万维⽹中各个⽹站抓取信息的系统。互联⽹⾦融企业积累⾏业数据需要从⾏业相关站点抓取有价值的内容信息,因此都需要建⽴⾃⼰的⼀套爬⾍系统。爬虫系统利用万维网及时抓取企业所需要的资讯信息,通过对不同的抓取目标网站配置相应规则来实现个性化内容抓取。爬⾍系统设计是否优良主要看以下⼏个⽅⾯:(1)爬⾍系统的稳定性,即是否存在单点故障;(2)爬⾍系统的及时性,即站点新发布的内容是否在要求的时间内被系统抓取到;(3)爬⾍系统的伸缩性,即当需要爬取的站点增多或减少时,爬⾍系统是否能够轻易地通过增加或减少系统资源(系统资源包括:进程数,机器数量,外⽹带宽等等)来适应相应的爬取压⼒; ...
【技术保护点】
一种基于可靠队列服务的分布式爬虫系统,采用分布式系统架构。
【技术特征摘要】
1.一种基于可靠队列服务的分布式爬虫系统,采用分布式系统架构。2.系统整体可分成七大模块:调度模块、抓取及页面解析模块、附件处理模块、图片处理模块、监控模块、配置平台模块、http代理模块。3.系统的核心模块:调度模块和抓取及页面解析模块通过基于binlog实现主从同步的可靠队列服务来...
【专利技术属性】
技术研发人员:汤超,叶奇,陈平,
申请(专利权)人:武汉楚鼎信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。