【技术实现步骤摘要】
爬虫调度方法、装置、终端设备和可读存储介质
本专利技术涉及计算机网络
,尤其涉及一种爬虫调度方法、装置、终端设备和可读存储介质。
技术介绍
现有爬虫任务调度系统,一般都是针对每个网页设定一个固定调度频率,由调度系统设置的定时任务根据每个网站设定的固定频率来做调度采集。但是,对于更新频率不高的网页,以固定频率调度爬虫采集数据,导致采集重复率比较高,浪费数据采集资源。
技术实现思路
鉴于上述问题,本专利技术提出一种爬虫调度方法、装置、终端设备和可读存储介质。本专利技术的一个实施例提出一种爬虫调度方法,该方法包括:在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;将所述下次调度映射时间映射至所述实际时间轴上 ...
【技术保护点】
1.一种爬虫调度方法,其特征在于,该方法包括:/n在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;/n根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;/n根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;/n将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;/n根据所述下次调度实际时间调度所述爬虫。/n
【技术特征摘要】
1.一种爬虫调度方法,其特征在于,该方法包括:
在调度爬虫爬取目标网页的数据时,将当前实际时间映射至预设的更新距离映射时间轴上以确定对应的当前映射时间,所述更新距离映射时间轴预先通过实际时间轴和所述目标网页的更新情况确定;
根据所述目标网页的更新情况确定所述爬虫下次调度的映射时间间隔;
根据所述当前映射时间和所述映射时间间隔确定所述爬虫下次调度的下次调度映射时间;
将所述下次调度映射时间映射至所述实际时间轴上以确定对应的下次调度实际时间;
根据所述下次调度实际时间调度所述爬虫。
2.根据权利要求1所述的爬虫调度方法,其特征在于,所述更新距离映射时间轴通过以下方法预先设置:
将预设周期内的实际时间轴分为预设r个单位时间段;
每一单位时间段通过预设的映射公式映射至所述更新距离映射时间轴;
所述映射公式如下:
xi表示第i个单位时间段内新增的有效信息数,X表示所述周期T内新增的有效信息总数,Δpi表示第i个单位时间段映射至所述更新距离映射时间轴上对应的更新距离映射时间段。
3.根据权利要求2所述的爬虫调度方法,其特征在于,所述当前映射时间根据以下公式计算:
f(pn)表示所述当前映射时间,pk和pk+1分别表示单位实际时间Tk和单位实际时间Tk+1在所述更新距离映射时间轴上的对应更新距离映射时间,T0~t表示当前实际时间,T0~t位于单位实际时间Tk和单位实际时间Tk+1范围内。
4.根据权利要求3所述的爬虫调度方法,其特征在于,所述映射时间间隔根据以下公式计算:
Δf(pn)表示所述映射时间间隔,Xmax表示所述爬虫n次爬取中单次最大爬取数目,Tn表示n次爬取总时间,Xm表示n次爬取中第m次爬取到的有效爬取数目,a表示预设的误差参数。
5.根据权利要求4所述的爬虫调度方法,其特征在于,所述下次调度映射时间对应的下次调度实际时间根据以下公式计算:
f(p)=f(pn)+Δf(pn),f(t)表示所述下次调度实际时间,f(p)表示所述下次调度...
【专利技术属性】
技术研发人员:夏凯军,鄢宇,
申请(专利权)人:深圳市科盾科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。