【技术实现步骤摘要】
数据抓取方法、装置及电子设备
本申请涉及一种数据抓取方法、装置及电子设备,属于计算机
技术介绍
网络爬虫是目前获取网站数据的重要方式,对数据分析、信息搜索等方面有重要作用。目前业界一般采用多机器部署的分布式网络爬虫架构,在这样的架构下需要通过中心化的节点进行统一调度,系统实现的成本非常高,而且一旦资源调度系统出现问题,会导致整个网络爬虫系统瘫痪。
技术实现思路
本专利技术实施例提供一种数据抓取方法、装置及电子设备,避免了服务器集中式的调度和数据传输的单点瓶颈问题,及数据获取任务被目标网站屏蔽的风险。为了实现上述目的,本专利技术实施例提供了一种数据抓取方法,包括:接收数据抓取请求,所述数据抓取请求中至少包括资源配置参数;根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数,如果满足,则执行数据抓取,如果不满足,则向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求。本专利技术实施例还提供了一种数据抓取装置,包括:数据抓取请求接收模块,用于接收数据抓取请求,所述数据抓取请求中至少包括资源配置参数;数据抓取模块,用于根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数,在满足的情况下,执行数据抓取;数据抓取请求广播模块,用于根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数,在不满足的情况下,向所述当前爬虫节点的邻近爬虫节点 ...
【技术保护点】
1.一种数据抓取方法,包括:/n接收数据抓取请求,所述数据抓取请求中至少包括数据抓取任务所需的资源配置参数;/n根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数,如果满足,则执行数据抓取,如果不满足,则向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求。/n
【技术特征摘要】
1.一种数据抓取方法,包括:
接收数据抓取请求,所述数据抓取请求中至少包括数据抓取任务所需的资源配置参数;
根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数,如果满足,则执行数据抓取,如果不满足,则向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求。
2.根据权利要求1所述的方法,其中,所述资源配置参数包括:网络带宽、存储空间、处理器性能、IP地址中的一项或者多项的组合。
3.根据权利要求1所述的方法,其中,在根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数之前,还包括:
判断所述当前爬虫节点的是否处于空闲状态,如果是,则执行根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数的处理,否则,向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求。
4.根据权利要求1所述的方法,其中,所述数据抓取请求中还包括数据抓取量信息,
在根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数之前,还包括:
根据当前爬虫节点的负载状态,确定是否能够处理与所述数据抓取量对应的抓取任务,如果能,则执行根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数的处理,否则,向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求。
5.根据权利要求1所述的方法,其中,所述数据抓取请求中还包括用于记录该数据抓取请求的转发次数的字段,
所述向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求包括:将所述字段中记录的转发次数加一后,向所述当前爬虫节点的邻近爬虫节点广播所述数据抓取请求,
所述方法还包括:接收数据抓取请求后,读取所述字段中记录的被转发次数,如果所述转发次数大于预设阈值,则丢弃该接收数据抓取请求,否则,执行根据所述资源配置参数和当前爬虫节点的资源配置属性,确定当前爬虫节点是否满足所述资源配置参数的处理。
6.根据权利要求1所述的方法,其中,所述数据抓取请求中还至少包括数据抓取请求的源爬虫节点的地址信息,
所述执行数据抓取包括:
向所述源爬虫节点返回响应消息;
接收所述源爬虫节点发送的数据抓取任务消息,数据抓取任务消息中至少包括待抓取数据的地址信息;
根据所述抓取任务消息执行数据抓取任务,并将抓取到的数据发送至所述源爬虫节点。
7.根据权利要求1所述的方法,其中,还包括:
从种子服务器获取种子爬虫节点的地址信息;
通过所述种子爬虫节点获取与当前爬虫节点的邻近爬虫节点的地址信息,并与所述邻近的爬虫节点建立路由关系。
8.根据权利要求7所述的方法,其中,通过所述种子爬虫节点获取与当前爬虫节点邻近的爬虫节点的地址信息,并与所述邻近的爬虫节点建立路由关...
【专利技术属性】
技术研发人员:朱东方,邹启蒙,刘庆,周文军,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。