【技术实现步骤摘要】
分布式爬虫任务调度方法、装置、设备及计算机可读介质
本申请涉及数据爬取
,尤其涉及一种分布式爬虫任务调度方法、装置、设备及计算机可读介质。
技术介绍
随着计算机技术及互联网技术的发展,数据量的指数级增加加大了获取想要的数据的难度,而利用分布式爬虫系统则可以快速、准确的获取想要的数据。但是分布式爬虫系统也存在一定的问题,如网络距离较远造成网络时延较高的情况下爬取效率也会受到极大影响,并且同一个爬虫节点需要进行多个爬取任务的情况下该爬虫节点的负载较重,同时也存在没有爬取任务而负载较轻的爬虫节点,导致负载不均衡、爬取效率低。目前,相关技术中,主要有随机哈希的分配方法和根据地理位置进行调度的分配方法。随机哈希的分配方法是将爬取任务随机分配到分布式爬虫系统的爬虫节点上,节点对网站进行爬取。根据地理位置进行调度的分配方法是由地理上距离爬取任务的爬取网站最近的爬虫节点抓取。但是随机哈希的分配方法爬取效率不是最佳的,而根据地理位置进行调度的分配方法由于涉及运营商的商业利益等因素,同一爬虫节点爬取地理上距离接近的不同网站可能要经过很多不 ...
【技术保护点】
1.一种分布式爬虫任务调度方法,其特征在于,包括:/n获取待爬取网站的目标网络地址,其中,所述待爬取网站为目标爬取任务中对应的数据爬取网站,所述目标网络地址用于表示所述待爬取网站的互联网协议地址;/n提取与所述目标网络地址的网络时延在阈值范围内的第一爬虫节点,其中,所述网络时延用于表示爬虫节点与所述待爬取网站的网络距离,所述爬虫节点为分布式爬虫节点;/n将所述第一爬虫节点作为执行所述目标爬取任务的目标节点。/n
【技术特征摘要】
1.一种分布式爬虫任务调度方法,其特征在于,包括:
获取待爬取网站的目标网络地址,其中,所述待爬取网站为目标爬取任务中对应的数据爬取网站,所述目标网络地址用于表示所述待爬取网站的互联网协议地址;
提取与所述目标网络地址的网络时延在阈值范围内的第一爬虫节点,其中,所述网络时延用于表示爬虫节点与所述待爬取网站的网络距离,所述爬虫节点为分布式爬虫节点;
将所述第一爬虫节点作为执行所述目标爬取任务的目标节点。
2.根据权利要求1所述的方法,其特征在于,提取与所述目标网络地址的网络时延在阈值范围内的第一爬虫节点包括:
在预设二维坐标系的横轴中查找所述目标网络地址,其中,所述横轴上的取值用于表示多个网站的网络地址;
在查找到所述目标网络地址的情况下,在所述预设二维坐标系的纵轴中确定第一阈值位置,其中,所述预设二维坐标系的各个坐标用于表示各个所述爬虫节点,所述纵轴上的取值用于表示各个所述爬虫节点与各个所述网站的网络时延,所述预设二维坐标系的原点至所述第一阈值位置之间的取值范围表示所述阈值范围;
将所述目标网络地址对应的、所述原点至所述第一阈值位置之间的爬虫节点作为所述第一爬虫节点。
3.根据权利要求2所述的方法,其特征在于,在预设二维坐标系的横轴中查找所述目标网络地址之前,所述方法还包括按照如下方式构建所述预设二维坐标系:
获取多个网站的所述网络地址;
利用所有所述网络地址构建第一集合;
检测多个所述爬虫节点与所述第一集合中各个所述网络地址的网络时延,得到第二集合,其中,所述第二集合用于保存多个所述爬虫节点与各个所述网络地址基于所述网络时延的第一对应关系;
将所述第一集合中的所述网络地址作为所述横轴,将所述网络时延作为所述纵轴,按照所述第二集合中的所述第一对应关系确定各个所述爬虫节点的坐标,得到所述预设二维坐标系。
4.根据权利要求3所述的方法,其特征在于,在预设二维坐标系的横轴中未查找到所述目标网络地址的情况下,提取与所述目标网络地址的网络时延在阈值范围内的第一爬虫节点包括:
检测多个所述爬虫节点与所述目标网络地址的网络时延,得到第三集合,其中,所述第三集合用于保存多个所述爬虫节点与所述目标网络地址基于所述网络时延的第二对应关系;
将所述目标网络地址增加到所述预设二维坐标系的所述横轴中,并按照所述...
【专利技术属性】
技术研发人员:王俊杰,刘远,高雅,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。