一种基于远程过程调用实现的分布式爬虫调度方法技术

技术编号:23604872 阅读:84 留言:0更新日期:2020-03-28 05:55
本申请公开了一种基于远程过程调用实现的分布式爬虫调度方法、装置、服务端、系统及可读存储介质,该方案基于Thrift通信框架实现爬虫调度,能够实现远程跨语言调用;在存储方面,将爬虫种子以散列结构的形式存储在redis集群,提升了爬虫种子的存储效率和访问速度;在操作方面,向客户端提供爬虫种子的操作接口,使得用户能够依据自身需求配置爬虫种子,且通过redis锁避免了数据一致性问题。

A distributed crawler scheduling method based on remote procedure call

【技术实现步骤摘要】
一种基于远程过程调用实现的分布式爬虫调度方法
本申请涉及计算机
,特别涉及一种基于远程过程调用实现的分布式爬虫调度方法、装置、服务端、系统及可读存储介质。
技术介绍
随着互联网的规模迅速增长,其相关的服务和信息量也随之快速增长。在这些信息得到人们广泛应用的同时,专门负责互联网信息收集工作的网络爬虫也面临着巨大的挑战。目前,国内外的大型互联网公司、相关研究机构已经给出了一些较为成熟的解决方案,有些也已投入使用,但是这些方案大都只能为一般用户提供一种不可定制的服务,无法满足广大用户日益增长的需求。分布式爬虫需要考虑的问题主要有以下几个:爬虫任务的统一调度、存储问题、速度问题。可见,如何在分布式场景下提供一种可靠的高效的爬虫调度方案,是亟待本领域技术人员解决的问题。
技术实现思路
本申请的目的是提供一种基于远程过程调用实现的分布式爬虫调度方法、装置、服务端、系统及可读存储介质,用以实现在分布式场景下提供可靠的高效的爬虫调度方案的目的。其具体方案如下:第一方面,本申请提供了一种基于远程过程调用实现的分布本文档来自技高网...

【技术保护点】
1.一种基于远程过程调用实现的分布式爬虫调度方法,其特征在于,应用于基于Thrift通信框架的服务端,包括:/n将爬虫种子以散列结构的形式存储在redis集群中;/n向客户端提供所述爬虫种子的操作接口;/n获取持有redis锁的客户端发送的对所述操作接口的调用请求;/n根据所述调用请求,对目标爬虫种子执行相应的处理操作。/n

【技术特征摘要】
1.一种基于远程过程调用实现的分布式爬虫调度方法,其特征在于,应用于基于Thrift通信框架的服务端,包括:
将爬虫种子以散列结构的形式存储在redis集群中;
向客户端提供所述爬虫种子的操作接口;
获取持有redis锁的客户端发送的对所述操作接口的调用请求;
根据所述调用请求,对目标爬虫种子执行相应的处理操作。


2.如权利要求1所述的方法,其特征在于,所述将爬虫种子以散列结构的形式存储在redis集群中,包括:
确定爬虫种子的标识信息组合,并生成所述标识信息组合的MD5值,其中所述标识信息组合包括:目标URL、业务组、采集任务ID;
将所述MD5值作为散列结构的key,以将所述爬虫种子存储在redis集群中。


3.如权利要求2所述的方法,其特征在于,所述将爬虫种子以散列结构的形式存储在redis集群中,包括:
将爬虫种子以散列结构的形式存储在redis集群中的种子队列,其中所述种子队列中的各个爬虫种子根据时间戳进行顺序排列。


4.如权利要求3所述的方法,其特征在于,所述种子队列与业务组一一对应,所述将爬虫种子以散列结构的形式存储在redis集群中的种子队列,包括:
根据爬虫种子所在的业务组,将该爬虫种子以散列结构的形式存储在redis集群中相应的种子队列。


5.如权利要求1所述的方法,其特征在于,所述向客户端提供所述爬虫种子的操作接口,包括:
向客户端提供所述爬虫种子的操作接口,所述操作接口包括以下任意一项或多项:添加接口、更新接口、删除接口、调度接口。


6.如权利要求5所述的方法,其特征在于,若所述操作接口为更新接口,所...

【专利技术属性】
技术研发人员:邱煜铭范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1