【技术实现步骤摘要】
数据爬取方法、装置、计算机系统和计算机可读存储介质
本公开涉及信息安全、物联网
,更具体地,涉及一种数据爬取方法、数据爬取装置、计算机系统、计算机可读存储介质和计算机程序产品。
技术介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。针对这一挑战,定向抓取相关网页资源的爬虫技术应运而生。在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题,在使用爬虫爬取数据的过程中,不可避免的会因为外部原因导致爬取数据中断,此时通常需要重新爬取,重新爬取耗时耗力,而且可能会因为同样的原因再次中断。
技术实现思路
有鉴于此,本公开提供了一种数据爬取方法、数据爬取装置、计算机系统、计算机可读存储介质和计算机程序产品。本公开的一个方面提供了一种数据爬取方法,包括:利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。根据本公开的实施例,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,每个所述数据分片配置有分片标识,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据包括:在所述客户端预爬取所述网页端数据的过程出现中断的情况下,获取所述客户端爬取到的部分网页数据对应的第一目标分片 ...
【技术保护点】
1.一种数据爬取方法,包括:/n利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;/n根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及/n将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。/n
【技术特征摘要】
1.一种数据爬取方法,包括:
利用数据流引擎获取由数据分片构成的数据集合,其中,所述数据分片是根据客户端预爬取的网页端数据构造得到的;
根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及
将所述目标爬取数据发送至所述客户端,以使得所述客户端根据所述目标爬取数据确定所述预爬取的网页端数据。
2.根据权利要求1所述的方法,其中,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,每个所述数据分片配置有分片标识,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据包括:
在所述客户端预爬取所述网页端数据的过程出现中断的情况下,获取所述客户端爬取到的部分网页数据对应的第一目标分片标识;
获取所述数据集合中的多个数据分片对应的全部分片标识;
将所述第一目标分片标识与所述全部分片标识进行匹配,筛选得到第二目标分片标识;
根据所述第二目标分片标识对应的目标数据分片从所述网页端爬取得到在所述客户端的预爬取过程中未爬取到的目标网页数据;以及
将所述目标网页数据作为所述目标爬取数据。
3.根据权利要求2所述的方法,其中,根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据还包括:
通过探针检测所述数据流引擎与所述网页端是否建立连接;
在所述数据流引擎与所述网页端建立连接的情况下,从所述网页端获取与所述目标数据分片对应的下载数据以及针对所述目标数据分片返回的下载标识;以及
将所述目标数据分片以及与所述目标数据分片对应的下载数据和下载标识作为所述目标爬取数据。
4.根据权利要求2或3所述的方法,还包括:
将所述第一目标分片标识和所述第二目标分片标识进行组合,得到最终分片标识;以及
在所述最终分片标识与所述客户端存储的分片标识一致的情况下,根据所述部分网页数据和所述目标网页数据确定所述客户端预爬取的网页端数据。
5.一种数据爬取方法,包括:
获取根据客户端预爬取的网页端数据构造得到的数据分片;
为所述数据分片配置分片标识;
将配置有所述分片标识的数据分片以数据集合的形式存储于数据流引擎中,以便于所述数据流引擎根据所述数据集合中的数据分片从所述网页端爬取网页数据,生成目标爬取数据;以及
获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据。
6.根据权利要求5所述的方法,其中,所述根据客户端预爬取的网页端数据构造得到的数据分片包括多个,在获取所述目标爬取数据,以根据所述目标爬取数据确定所述客户端预爬取的网页端数据之前包括:
在所述...
【专利技术属性】
技术研发人员:朱培航,乔媛,介晓伟,李婷婷,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。