网页数据抓取方法、装置、设备以及存储介质制造方法及图纸

技术编号:37454671 阅读:27 留言:0更新日期:2023-05-06 09:26
本公开的实施例提供了一种网页数据抓取方法、装置、设备以及存储介质。该方法包括:对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;若卡顿,则重启网页数据抓取程序;若检测到网页数据抓取程序处于停止状态,则确定URL列表是否为空;若不为空,则启动网页数据抓取程序。以此方式,不仅可以使网页数据抓取程序在报错停止或卡顿时自动启动或重启,无需人工监控,还可以使该程序延续上一次的抓取进度,继续抓取网页数据,避免重复抓取。避免重复抓取。避免重复抓取。

【技术实现步骤摘要】
网页数据抓取方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,尤其涉及一种网页数据抓取方法、装置、设备以及存储介质。

技术介绍

[0002]目前在批量抓取网页数据过程中,可能因网页请求限制、网络不稳定等原因导致网页数据抓取程序报错终止或是卡顿不再继续,此时需要重启网页数据抓取程序才能继续。可知,这样操作往往会导致之前抓取的网页数据会重复抓取,也需求管理人员时刻看着程序等诸多不变。

技术实现思路

[0003]本公开提供了一种网页数据抓取方法、装置、设备以及存储介质。
[0004]第一方面,本公开的实施例提供了一种网页数据抓取方法,该方法包括:
[0005]对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据统一资源定位符(Uniform Resource Locator,URL)列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;
[0006]若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;
[0007本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页数据抓取方法,其特征在于,所述方法包括:对启动之后的网页数据抓取程序进行状态检测,其中,所述网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将所述URL列表中与所述网页数据对应的URL删除;若检测到所述网页数据抓取程序处于运行状态,则确定所述网页数据抓取程序是否卡顿;若确定所述网页数据抓取程序卡顿,则重启所述网页数据抓取程序;若检测到所述网页数据抓取程序处于停止状态,则确定所述URL列表是否为空;若确定所述URL列表不为空,则启动所述网页数据抓取程序。2.根据权利要求1所述的方法,其特征在于,所述确定所述网页数据抓取程序是否卡顿,包括:计算最新抓取的网页数据的抓取时间与当前时间的时间间隔;若所述时间间隔大于或等于预设阈值,则确定所述网页数据抓取程序卡顿。3.根据权利要求1所述的方法,其特征在于,所述网页数据抓取程序还用于将抓取的网页数据生成为HTML文件,并存储至目标文件目录;所述确定所述网页数据抓取程序是否卡顿,包括:计算最新生成的HTML文件的生成时间与当前时间的时间间隔;若所述时间间隔大于或等于预设阈值,则确定所述网页数据抓取程序卡顿。4.根据权利要求1所述的方法,其特征在于,所述网页数据抓取程序还用于在所述URL列表为空的情况下,将所述URL列表删除。5.根据权利要求1所述的方法,其特征在于,所述URL列表存储在Redis中。6.根据权利要求1...

【专利技术属性】
技术研发人员:吴脂娟郝伟
申请(专利权)人:安徽华云安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1