一种基于网络爬虫的数据处理方法、系统及云平台技术方案

技术编号:27420937 阅读:47 留言:0更新日期:2021-02-21 14:39
本发明专利技术涉及互联网与数据处理技术领域,具体而言,涉及一种基于网络爬虫的数据处理方法、系统及云平台。本发明专利技术通过获取用户输入的网页爬虫指令,网页爬虫指令包括目标网页信息和爬取对象集合,然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据,并将目标爬虫数据保存至目标分布式保存节点中,其中,目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点;相比于现有技术,本发明专利技术能够提升大规模数据爬取时爬虫数据保存的可靠性,并通过针对当前网页内容数据和历史网页内容数据进行爬取,能够充分的爬取用户所需的数据,提高数据爬取的完整性。提高数据爬取的完整性。提高数据爬取的完整性。

【技术实现步骤摘要】
一种基于网络爬虫的数据处理方法、系统及云平台


[0001]本专利技术涉及互联网与数据处理
,具体而言,涉及一种基于网络爬虫的数据处理方法、系统及云平台。

技术介绍

[0002]网络爬虫是一种按照设定的规则,能够自动地抓取网页信息的程序或脚本;利用网络爬虫,可以快速的获取用户所需的网页数据,从而为大规模的数据收集提供技术支撑。
[0003]其中,在利用网络爬虫爬取数据的过程中,现有技术可以将爬取的数据保存在设备本地。然而,在大规模数据分析的场景中,由于爬取的数据量较大,可能导致不同网页数据的爬虫数据相互污染,可靠数据爬取的可靠性降低。

技术实现思路

[0004]本专利技术的目的在于提供一种基于网络爬虫的数据处理方法、系统及云平台,以解决上述的至少部分技术问题。
[0005]为了实现上述目的,本专利技术采用的技术方案如下:第一方面,本专利技术提供一种基于网络爬虫的数据处理方法,所述方法包括:获取用户输入的网页爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述爬取对象集合用于指示所述目标网页信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于网络爬虫的数据处理方法,其特征在于,所述方法包括:获取用户输入的网页爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述爬取对象集合用于指示所述目标网页信息中待爬取的网页对象集合;获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据;将所述目标爬虫数据保存至目标分布式保存节点中,其中,所述目标分布式保存节点为分布式存储系统中与所述网页对象集合对应的保存节点。2.根据权利要求1所述的方法,其特征在于,所述获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据,包括:获取与所述目标网页信息对应的当前网页内容数据和历史网页内容数据;根据所述爬取对象集合在所述当前网页内容数据中匹配出所述网页对象集合所对应的目标爬虫数据,以及在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据;其中,所述当前网页内容数据为所述目标网页信息所指示的网页地址在当前时刻的网页内容数据,所述历史网页内容数据为所述目标网页信息所指示的网页地址在历史时刻的网页内容数据。3.根据权利要求2所述的方法,其特征在于,所述将所述目标爬虫数据保存至目标分布式保存节点中,包括:将所述网页对象集合对应的目标爬虫数据保存至所述目标分布式保存节点的过程中,初始化数据保存进程的单位数据保存资源量,其中,所述数据保存进程的单位数据保存资源量用于指示每一次数据保存操作所对应的目标爬虫数据的数据量;获取单位数据保存上限值,其中,所述单位数据保存上限值用于指示所述数据保存进程在保存所述目标爬虫数据的过程中但每一次数据保存操作所对应的目标爬虫数据的上限数据量;根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新;根据更新后的所述数据保存进程,对所述目标爬虫数据继续执行数据保存操作;其中,所述根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新,包括:当所述单位数据保存上限值小于预设的单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量乘以第一预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量;当所述单位数据保存上限值大于或等于所述单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量除以第二预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量。4.根据权利要求2所述的方法,其特征在于,所述在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据,包括:获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据;其中,每一个目标虚拟对象数据用于表征对应的目标网页对象的网页画像;当对所述网页对象集合所有的目标网页对象各自对应的目标虚拟对象数据的均进行
安全验证通过时,根据对象转换策略对每一个所述目标虚拟对象数据进行虚拟对象转换,得到每一个所述目标网页对象各自对应的网页对象画像;当每一个所述网页对象画像均满足预设的画像匹配条件时,从网页信息保存服务器中获取与接收的爬取时间区间相匹配的各个网页对象画像所对应的历史网页对象数据,得到每个网页对象画像各自对应的初始爬虫数据包;其中,所述网页信息保存服务器中保存有所有目标网页对象各自所对应的爬虫数据;根据每一个所述初始爬虫数据包各自携带的画像类型标签,对具有相同画像类型标签的各个初始爬虫数据包进行合并,得到每个画像类型标签各自对应的虚拟对象数据;对每个画像类型标签各自对应的虚拟对象数据进行筛选,得到中间虚拟对象数据;根据预先配置的秘钥生成策略对每一个所述中间虚拟对象数据进行秘钥生成,得到每一个中间虚拟对象数据各自对应的虚拟对象秘钥信令;对所有所述虚拟对象秘钥信令进行安全信令校验;根据每一个安全信令校验的校验结果,从所有通过安全校验的虚拟对象秘钥信令所对应的中间虚拟对象数据确定为待选定虚拟对象数据;将所有的所述待选定虚拟对象数据各自所对应的目标网页对象构建为待选定网页对象集合;将所述网页信息保存服务器获取与所述待选定网页对象集合中所有的目标网页对象所对应的爬虫数据,作为匹配出的所述网页对象集合所对应的目标爬虫数据。5.根据权利要求4所述的方法,其特征在于,所述获取与所述网页对象集合...

【专利技术属性】
技术研发人员:詹能勇刘振宇
申请(专利权)人:广州智云尚大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1