网页数据抓取方法、装置、设备以及存储介质制造方法及图纸

技术编号:37454671 阅读:19 留言:0更新日期:2023-05-06 09:26
本公开的实施例提供了一种网页数据抓取方法、装置、设备以及存储介质。该方法包括:对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;若卡顿,则重启网页数据抓取程序;若检测到网页数据抓取程序处于停止状态,则确定URL列表是否为空;若不为空,则启动网页数据抓取程序。以此方式,不仅可以使网页数据抓取程序在报错停止或卡顿时自动启动或重启,无需人工监控,还可以使该程序延续上一次的抓取进度,继续抓取网页数据,避免重复抓取。避免重复抓取。避免重复抓取。

【技术实现步骤摘要】
网页数据抓取方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,尤其涉及一种网页数据抓取方法、装置、设备以及存储介质。

技术介绍

[0002]目前在批量抓取网页数据过程中,可能因网页请求限制、网络不稳定等原因导致网页数据抓取程序报错终止或是卡顿不再继续,此时需要重启网页数据抓取程序才能继续。可知,这样操作往往会导致之前抓取的网页数据会重复抓取,也需求管理人员时刻看着程序等诸多不变。

技术实现思路

[0003]本公开提供了一种网页数据抓取方法、装置、设备以及存储介质。
[0004]第一方面,本公开的实施例提供了一种网页数据抓取方法,该方法包括:
[0005]对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据统一资源定位符(Uniform Resource Locator,URL)列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;
[0006]若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;
[0007]若确定网页数据抓取程序卡顿,则重启网页数据抓取程序;
[0008]若检测到网页数据抓取程序处于停止状态,则确定URL列表是否为空;
[0009]若确定URL列表不为空,则启动网页数据抓取程序。
[0010]在第一方面的一些可实现方式中,确定网页数据抓取程序是否卡顿,包括:
[0011]计算最新抓取的网页数据的抓取时间与当前时间的时间间隔;/>[0012]若时间间隔大于或等于预设阈值,则确定网页数据抓取程序卡顿。
[0013]在第一方面的一些可实现方式中,网页数据抓取程序还用于将抓取的网页数据生成为超文本标记语言(Hyper Text Markup Language,HTML)文件,并存储至目标文件目录;
[0014]确定网页数据抓取程序是否卡顿,包括:
[0015]计算最新生成的HTML文件的生成时间与当前时间的时间间隔;
[0016]若时间间隔大于或等于预设阈值,则确定网页数据抓取程序卡顿。
[0017]在第一方面的一些可实现方式中,网页数据抓取程序还用于在URL列表为空的情况下,将URL列表删除。
[0018]在第一方面的一些可实现方式中,URL列表存储在远程字典服务(Remote Dictionary Server,Redis)中。
[0019]在第一方面的一些可实现方式中,URL列表是通过以下步骤生成的:
[0020]获取目标网站对应的多个URL;
[0021]根据多个URL,生成URL列表。
[0022]第二方面,本公开的实施例提供了一种网页数据抓取装置,该装置包括:
[0023]检测模块,用于对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;
[0024]确定模块,用于若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;
[0025]重启模块,用于若确定网页数据抓取程序卡顿,则重启网页数据抓取程序;
[0026]确定模块,还用于若检测到网页数据抓取程序处于停止状态,则确定URL列表是否为空;
[0027]启动模块,用于若确定URL列表不为空,则启动网页数据抓取程序。
[0028]第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如以上所述的方法。
[0029]第四方面,本公开的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如以上所述的方法。
[0030]在本公开的实施例中,不仅可以使网页数据抓取程序在报错停止或卡顿时自动启动或重启,无需人工监控,还可以使该程序延续上一次的抓取进度,继续抓取网页数据,避免重复抓取。
[0031]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0032]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0033]图1示出了本公开的实施例提供的一种网页数据抓取方法的流程图;
[0034]图2示出了本公开的实施例提供的又一种网页数据抓取方法的流程图;
[0035]图3示出了本公开的实施例提供的一种网页数据抓取装置的结构图;
[0036]图4示出了一种能够实施本公开的实施例的示例性电子设备的结构图。
具体实施方式
[0037]为使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0038]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0039]针对
技术介绍
中出现的问题,本公开的实施例提供了一种网页数据抓取方法、装置、设备以及存储介质。具体地,对启动之后的网页数据抓取程序进行状态检测,其中,网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将URL列表中与网页数据对应的URL删除;若检测到网页数据抓取程序处于运行状态,则确定网页数据抓取程序是否卡顿;若确定网页数据抓取程序卡顿,则重启网页数据抓取程序;若检测到网页数据抓取程序处于停止状态,则确定URL列表是否为空;若确定URL列表不为空,则启动网页数据抓取程序。
[0040]如此一来,不仅可以使网页数据抓取程序在报错停止或卡顿时自动启动或重启,无需人工监控,还可以使该程序延续上一次的抓取进度,继续抓取网页数据,避免重复抓取。
[0041]下面结合附图,通过具体的实施例对本公开的实施例提供的网页数据抓取方法、装置、设备以及存储介质进行详细地说明。
[0042]图1示出了本公开的实施例提供的一种网页数据抓取方法的流程图,如图1所示,网页数据抓取方法100可以包括以下步骤:
[0043]S110,对启动之后的网页数据抓取程序进行状态检测。
[0044]在一些实施例中,可以对启动之本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页数据抓取方法,其特征在于,所述方法包括:对启动之后的网页数据抓取程序进行状态检测,其中,所述网页数据抓取程序在启动之后,用于根据URL列表中的URL抓取对应的网页数据,并将所述URL列表中与所述网页数据对应的URL删除;若检测到所述网页数据抓取程序处于运行状态,则确定所述网页数据抓取程序是否卡顿;若确定所述网页数据抓取程序卡顿,则重启所述网页数据抓取程序;若检测到所述网页数据抓取程序处于停止状态,则确定所述URL列表是否为空;若确定所述URL列表不为空,则启动所述网页数据抓取程序。2.根据权利要求1所述的方法,其特征在于,所述确定所述网页数据抓取程序是否卡顿,包括:计算最新抓取的网页数据的抓取时间与当前时间的时间间隔;若所述时间间隔大于或等于预设阈值,则确定所述网页数据抓取程序卡顿。3.根据权利要求1所述的方法,其特征在于,所述网页数据抓取程序还用于将抓取的网页数据生成为HTML文件,并存储至目标文件目录;所述确定所述网页数据抓取程序是否卡顿,包括:计算最新生成的HTML文件的生成时间与当前时间的时间间隔;若所述时间间隔大于或等于预设阈值,则确定所述网页数据抓取程序卡顿。4.根据权利要求1所述的方法,其特征在于,所述网页数据抓取程序还用于在所述URL列表为空的情况下,将所述URL列表删除。5.根据权利要求1所述的方法,其特征在于,所述URL列表存储在Redis中。6.根据权利要求1...

【专利技术属性】
技术研发人员:吴脂娟郝伟
申请(专利权)人:安徽华云安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1