基于列表方式的网页数据采集方法、装置及电子设备制造方法及图纸

技术编号:35945459 阅读:15 留言:0更新日期:2022-12-14 10:35
本申请的一些实施例提供了一种基于列表方式的网页数据采集方法、装置及电子设备,该方法包括:获取网页链接子集合,其中,所述网页链接子集合配置有标识信息,所述网页链接子集合中包含网页列表中的第一部分链接,所述网页列表包括:所述第一部分链接和第二部分链接;对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,其中,所述第一部分链接与所述第二部分链接被采集的时间节点不同。本申请的一些实施例可以有效确保采集数据的完整性和准确性。的完整性和准确性。的完整性和准确性。

【技术实现步骤摘要】
基于列表方式的网页数据采集方法、装置及电子设备


[0001]本申请涉及数据采集
,具体而言,涉及一种基于列表方式的网页数据采集方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的发展,数据采集尤为重要。
[0003]目前,现有技术在采集数据时,通常将一批数据进行同时采集,但是该方法可控性较差,如果数据采集设备异常则导致数据采集全部失败,即使数据采集成功也无法保障采集数据的准确度和完整性。
[0004]因此,如何提供一种准确度高且完整性好的基于列表方式的网页数据采集的技术方案成为亟需解决的技术问题。

技术实现思路

[0005]本申请的一些实施例的目的在于提供一种基于列表方式的网页数据采集方法、装置及电子设备,通过本申请的实施例的技术方案可以对数据采集的过程进行控制,实现对数据的准确和完整采集,采集效率也较好。
[0006]第一方面,本申请的一些实施例提供了一种基于列表方式的网页数据采集方法,包括:获取网页链接子集合,其中,所述网页链接子集合配置有标识信息,所述网页链接子集合中包含网页列表中的第一部分链接,所述网页列表包括:所述第一部分链接和第二部分链接;对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,其中,所述第一部分链接与所述第二部分链接被采集的时间节点不同。
[0007]本申请的一些实施例通过将网页列表中的部分链接作为网页链接子集合并配置有唯一标识,然后按照不同的时间节点对部分链接和剩余链接进行数据采集,可以实现对网页列表中数据的分批采集,根据唯一标识区分网页链接子集合,实现对数据采集的过程的控制,使得得到的数据的准确度和完整性较高,采集效率也较好。
[0008]在一些实施例,所述获取网页链接子集合,包括:将所述网页列表中的所有链接划分为多个待采集子集合,其中,所述网页链接子集合为所述多个待采集子集合中的任一个,一个待采集子集合对应一个标识信息,其中,所述多个待采集子集合中各待采集子集合被采集的时间节点不同;或者,将从所述网页列表中提取预设数量的链接构建所述网页链接子集合。
[0009]本申请的一些实施例通过对网页列表中的所有链接划分得到多个待采集集合,也可以在采集前提取预设数量的链接作为本次采集的网页链接子集合,通过该方法实现了对网页列表中的所有链接的分批采集,采集效果较好。
[0010]在一些实施例,所述对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,包括:对所述各网页链接的数据进行采集,获取各响应状态;若所述各响应状态中至少一个网页链接的响应状态为错误提示,则对所述至少一个网页链接进行重新采
集,直至所述至少一个网页链接的响应状态为成功;若所述各响应状态均为成功,则确认所述数据采集结果为成功。
[0011]本申请的一些实施例通过对各网页链接的响应状态进行分析,对响应状态为错误提示的进行重新采集,以此确保数据采集成功,确保数据的完整性。
[0012]在一些实施例,在所述确认所述数据采集结果为成功之前,所述方法还包括:获取各网页链接采集到的各网页内容,并对所述各网页内容进行校验获取校验结果;若所述校验结果为不通过,则获取所述不通过的至少一个网页链接,并对所述至少一个网页链接进行重新采集,直至所述采集的网页内容通过校验;若所述校验结果为通过,则所述数据采集结果为成功。
[0013]本申请的一些实施例通过采集到的各网页内容的校验结果,确定数据采集是否成功,确保数据采集的准确性。
[0014]在一些实施例,所述对所述各网页内容进行校验获取校验结果,包括:将所述各网页内容与各预设关键内容对比,若所述各网页内容均包含所述各预设关键内容,则确认所述校验结果为通过;若所述至少一个网页内容不包含对应的预设关键内容,则确认所述校验结果为不通过。
[0015]本申请的一些实施例通过将各网页内容与预设关键内容进行对比,可以得到准确度较高的校验结果,为确保数据采集的准确性提供判断依据。
[0016]在一些实施例,所述对所述各网页内容进行校验获取校验结果,包括:求取所述各网页内容与各预设关键内容的相似度值,若所述相似度值不小于预设阈值,则确认所述校验结果为通过;若所述相似度值小于所述预设阈值,则确认所述校验结果为不通过。
[0017]本申请的一些实施例通过获取网页内容与预设关键内容的相似度值,可以得到准确度较高的校验结果。
[0018]在一些实施例,所述预设关键内容包括:至少一个预设关键词或历史采集的网页内容。
[0019]在一些实施例,所述对所述至少一个网页链接进行重新采集,包括:以预设时间为周期对所述至少一个网页链接进行采集;或者,获取更换后的数据采集设备,利用所述更换后的数据采集设备对所述至少一个网页链接进行采集;或者,对所述至少一个网页链接采集时的请求信息进行修改,获取更换请求信息,并利用所述更换请求信息对所述至少一个网页链接进行采集。
[0020]本申请的一些实施例通过多种方式对采集未成功的网页链接进行重新采集,可以确保数据采集的完整性。
[0021]第二方面,本申请的一些实施例提供一种基于列表方式的网页数据采集装置,包括:获取模块,被配置为获取网页链接子集合,其中,所述网页链接子集合配置有标识信息,所述网页链接子集合中包含网页列表中的第一部分链接,所述网页列表包括:所述第一部分链接和第二部分链接;采集模块,被配置为对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,其中,所述第一部分链接与所述第二部分链接被采集的时间节点不同。
[0022]第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
[0023]第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
[0024]第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
[0025]为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026]图1为本申请的一些实施例提供的一种采集数据的系统图;
[0027]图2为本申请的一些实施例提供的基于列表方式的网页数据采集方法流程图之一;
[0028]图3为本申请的一些实施例提供的基于列表方式的网页数据采集方法流程图之二;
[0029]图4为本申请的一些实施例提供的一种基于列表方式的网页数据采集装置组成框图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于列表方式的网页数据采集方法,其特征在于,包括:获取网页链接子集合,其中,所述网页链接子集合配置有标识信息,所述网页链接子集合中包含网页列表中的第一部分链接,所述网页列表包括:所述第一部分链接和第二部分链接;对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,其中,所述第一部分链接与所述第二部分链接被采集的时间节点不同。2.如权利要求1所述的方法,其特征在于,所述获取网页链接子集合,包括:将所述网页列表中的所有链接划分为多个待采集子集合,其中,所述网页链接子集合为所述多个待采集子集合中的任一个,一个待采集子集合对应一个标识信息,其中,所述多个待采集子集合中各待采集子集合被采集的时间节点不同;或者,将从所述网页列表中提取预设数量的链接构建所述网页链接子集合。3.如权利要求1或2所述的方法,其特征在于,所述对所述网页链接子集合中的各网页链接进行数据采集,获取数据采集结果,包括:对所述各网页链接的数据进行采集,获取各响应状态;若所述各响应状态中至少一个网页链接的响应状态为错误提示,则对所述至少一个网页链接进行重新采集,直至所述至少一个网页链接的响应状态为成功;若所述各响应状态均为成功,则确认所述数据采集结果为成功。4.如权利要求3所述的方法,其特征在于,在所述确认所述数据采集结果为成功之前,所述方法还包括:获取各网页链接采集到的各网页内容,并对所述各网页内容进行校验获取校验结果;若所述校验结果为不通过,则获取所述不通过的至少一个网页链接,并对所述至少一个网页链接进行重新采集,直至采集的网页内容通过校验;若所述校验结果为通过,则所述数据采集结果为成功。5.如权利要求4所述的方法,其特征在于,所述对所述各网页内容进行校验获取校验结果,包括:将所述各网页内容与各...

【专利技术属性】
技术研发人员:黄龙叶大江
申请(专利权)人:上海柯林布瑞信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1