数据爬取方法、装置、计算机系统和计算机可读存储介质制造方法及图纸

技术编号:28871809 阅读:12 留言:0更新日期:2021-06-15 23:04
本公开提供了一种数据爬取方法、数据爬取装置、计算机系统、计算机可读存储介质和计算机程序产品,可用于信息安全、物联网领域或其他领域。其中,该方法包括:利用数据流引擎获取由数据分片构成的数据集合,其中,数据分片是根据客户端预爬取的网页端数据构造得到的;根据数据集合中的数据分片从网页端爬取网页数据,生成目标爬取数据;以及将目标爬取数据发送至客户端,以使得客户端根据目标爬取数据确定预爬取的网页端数据。

【技术实现步骤摘要】
数据爬取方法、装置、计算机系统和计算机可读存储介质
本公开涉及信息安全、物联网
,更具体地,涉及一种数据爬取方法、数据爬取装置、计算机系统、计算机可读存储介质和计算机程序产品。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。针对这一挑战,定向抓取相关网页资源的爬虫技术应运而生。在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题,在使用爬虫爬取数据的过程中,不可避免的会因为外部原因导致爬取数据中断,此时通常需要重新爬取,重新爬取耗时耗力,而且可能会因为同样的原因再次中断。
技术实现思路
有鉴于此,本公开提供了一种数据爬取方法、数据爬取装置、计算机系统、计算机可读存储介质和计算机程序产品。本公开的一个方面提供了一种数据爬取方法,包括:利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。根据本公开的实施例,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,每个所述数据分片配置有分片标识,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据包括:在所述客户端预爬取所述网页端数据的过程出现中断的情况下,获取所述客户端爬取到的部分网页数据对应的第一目标分片标识;获取所述数据集合中的多个数据分片对应的全部分片标识;将所述第一目标分片标识与所述全部分片标识进行匹配,筛选得到第二目标分片标识;根据所述第二目标分片标识对应的目标数据分片从所述网页端爬取得到在所述客户端的预爬取过程中未爬取到的目标网页数据;以及将所述目标网页数据作为所述目标爬取数据。根据本公开的实施例,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据还包括:通过探针检测所述数据流引擎与所述网页端是否建立连接;在所述数据流引擎与所述网页端建立连接的情况下,从所述网页端获取与所述目标数据分片对应的下载数据以及针对所述目标数据分片返回的下载标识;以及将所述目标数据分片以及与所述目标数据分片对应的下载数据和下载标识作为所述目标爬取数据。根据本公开的实施例,上述方法还包括:将所述第一目标分片标识和所述第二目标分片标识进行组合,得到最终分片标识;以及在所述最终分片标识与所述客户端存储的分片标识一致的情况下,根据所述部分网页数据和所述目标网页数据确定所述客户端预爬取的网页端数据。本公开的另一个方面提供了一种数据爬取方法,包括:获取根据客户端预爬取的网页端数据构造得到的数据分片;为所述数据分片配置分片标识;将配置有所述分片标识的数据分片以数据集合的形式存储于数据流引擎中,以便于所述数据流引擎根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据。根据本公开的实施例,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,在获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据之前包括:在所述客户端预爬取所述网页端数据的过程出现中断的情况下,确定所述客户端爬取到的部分网页数据对应的第一目标分片标识;获取所述数据分片的全部分片标识;将所述第一目标分片标识与所述全部分片标识进行匹配,以筛选得到第二目标分片标识;以及根据所述第二目标分片标识确定所述数据集合中的与所述第二目标分片标识对应的目标数据分片,以便于所述数据流引擎根据所述目标数据分片从所述网页端爬取得到在所述客户端的预爬取过程中未爬取到的目标网页数据,以及将所述目标网页数据作为所述目标爬取数据,其中,所述目标网页数据包括从所述网页端获取的与所述目标数据分片对应的下载数据以及针对所述目标数据分片返回的下载标识。根据本公开的实施例,上述方法还包括:获取所示第二目标分片标识及其对应的目标网页数据;将所述第一目标分片标识和所述第二目标分片标识进行组合,得到最终分片标识;以及在所述最终分片标识与所述客户端存储的分片标识一致的情况下,根据所述部分网页数据和所述目标网页数据确定所述客尸端预爬取的网页端数据。本公开的另一个方面提供了一种数据爬取装置,包括:获取模块,用于利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;生成模块,用于根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及发送模块,用于将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。本公开的另一个方面提供了一种数据爬取装置,包括:第一获取模块,用于获取根据客户端预爬取的网页端数据构造得到的数据分片;配置模块,用于为所述数据分片配置分片标识;存储模块,用于将配置有所述分片标识的数据分片以数据集合的形式存储于数据流引擎中,以便于所述数据流引擎根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及第二获取模块,用于获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据。本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的数据爬取方法。本公开的另一方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的数据爬取方法。本公开的另一方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的数据爬取方法。根据本公开的实施例,通过采用了利用数据流引擎获取由数据分片构成的数据集合,其中,数据分片是根据客户端预爬取的网页端数据构造得到的;根据数据集合中的数据分片从网页端爬取网页数据,生成目标爬取数据;以及将目标爬取数据发送至客户端,以使得客户端根据目标爬取数据确定预爬取的网页端数据的技术手段,由于客户端需要爬取的网页端数据可以根据数据流引擎中的数据集合爬取得到,而数据集合不会被外部中断所影响,所以至少部分地克服了爬取数据中断时需要重新爬取而导致的数据爬取过程耗时耗力的技术问题,进而达到了可以根据数据分片实现简单有效的断点续传的技术效果。附图说明通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:图1示意性示出了根据本公开实施例的可以应用数据爬取方法的示例性系统架构;图2示意性示出了根据本公开实施例的应用于数据流引擎的数据爬取方法的流程图;图3示意性示出了根据本公开实施例的应用于客户端的数据爬取方法的流程图;图4示意性示出了根据本公开实施例的用于实现数据爬取本文档来自技高网...

【技术保护点】
1.一种数据爬取方法,包括:/n利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;/n根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及/n将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。/n

【技术特征摘要】
1.一种数据爬取方法,包括:
利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;
根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及
将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。


2.根据权利要求1所述的方法,其中,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,每个所述数据分片配置有分片标识,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据包括:
在所述客户端预爬取所述网页端数据的过程出现中断的情况下,获取所述客户端爬取到的部分网页数据对应的第一目标分片标识;
获取所述数据集合中的多个数据分片对应的全部分片标识;
将所述第一目标分片标识与所述全部分片标识进行匹配,筛选得到第二目标分片标识;
根据所述第二目标分片标识对应的目标数据分片从所述网页端爬取得到在所述客户端的预爬取过程中未爬取到的目标网页数据;以及
将所述目标网页数据作为所述目标爬取数据。


3.根据权利要求2所述的方法,其中,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据还包括:
通过探针检测所述数据流引擎与所述网页端是否建立连接;
在所述数据流引擎与所述网页端建立连接的情况下,从所述网页端获取与所述目标数据分片对应的下载数据以及针对所述目标数据分片返回的下载标识;以及
将所述目标数据分片以及与所述目标数据分片对应的下载数据和下载标识作为所述目标爬取数据。


4.根据权利要求2或3所述的方法,还包括:
将所述第一目标分片标识和所述第二目标分片标识进行组合,得到最终分片标识;以及
在所述最终分片标识与所述客户端存储的分片标识一致的情况下,根据所述部分网页数据和所述目标网页数据确定所述客户端预爬取的网页端数据。


5.一种数据爬取方法,包括:
获取根据客户端预爬取的网页端数据构造得到的数据分片;
为所述数据分片配置分片标识;
将配置有所述分片标识的数据分片以数据集合的形式存储于数据流引擎中,以便于所述数据流引擎根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及
获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据。


6.根据权利要求5所述的方法,其中,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,在获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据之前包括:
在所述...

【专利技术属性】
技术研发人员:朱培航乔媛介晓伟李婷婷
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1