一种基于对象存储的爬虫结果存储方法及装置制造方法及图纸

技术编号:22308155 阅读:29 留言:0更新日期:2019-10-16 08:15
本发明专利技术公开了一种基于对象存储的爬虫结果存储方法,通过获取网络爬虫爬取的第一爬取结果文件,将第一爬取结果文件的原始链接URL添加至第一爬取结果文件生成路径的首行,生成第一路径,再根据第一爬取结果文件的属性,生成第一批处理编号,并将第一批处理号作为第一路径的前缀,生成第二路径,然后将第一爬取结果文件上传至对象存储系统,以第二路径作为存储路径,并生成第一结果路径日志,最后将第一爬取结果文件的来源URL和第二路径合并,生成聚合路径,并将聚合路径记录在第一结果路径日志中的末尾,生成最终结果路径日志,采用本发明专利技术提供的实施例,实现了支持批处理的爬取结果文件的存储格式,提高了后续对数据查询的效率。

A method and device for storing crawler results based on object storage

【技术实现步骤摘要】
一种基于对象存储的爬虫结果存储方法及装置
本专利技术涉及互联网
,尤其涉及一种基于对象存储的爬虫结果存储方法及装置。
技术介绍
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,在目前的路径追踪中,大多是以爬虫任务为基本单位来进行爬虫网络路径追踪,结果一般是以网页为单位存储到数据库,或直接存储到文件系统中,在需要调取相关数据时查询数据库或由下游系统去遍历文件系统的文件夹。现有技术中还提到另一种方法,即基于对象存储并使用爬虫日志对结果进行追踪。该方法通过建立结果路径日志,在外部系统调取数据时可在该日志中进行检索,而无需去数据库中检索,因此避免了可能产生的读写冲突。但在现有技术中,无不是以爬虫任务为基本单位进行爬虫网络路径追踪,这会遇到以下问题:1、若直接使用数据库或文件存储,存在效率问题。2、数据清洗是需要结合多个爬取结果文件的,若结果储存分散,则难以快速查询到所有相关结果。3、若以结果路径日志进行追踪,难免遇到日志切割问题,一旦相关结果存在于不同的日志中,将难以找寻到所有相关结果。
技术实现思路
本专利技术实施例的目的是提供一种基于对象存储的爬虫结果存储方法,实现了支持批处理的爬取结果文件的存储格式,提高了后续对数据查询的效率。为实现上述目的,本专利技术实施例提供了一种基于对象存储的爬虫结果存储方法,包括以下步骤:获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径;根据所述第一爬取结果文件的属性,生成第一批处理编号,并将所述第一批处理号作为所述第一路径的前缀,生成第二路径;将所述第一爬取结果文件上传至对象存储系统,以所述第二路径作为存储路径,并生成第一结果路径日志;其中,所述结果路径日志,用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引;将所述第一爬取结果文件的来源URL和所述第二路径合并,生成聚合路径,并将所述聚合路径记录在所述第一结果路径日志中的末尾,生成最终结果路径日志。进一步的,所述第一结果路径日志包括三列数据;第一列数据为日志时间,所述日志时间为所述第一爬取结果文件上传至所述对象存储系统的时间;第二列数据为所述第一爬取结果文件的来源URL;第三列数据为所述第二路径。进一步的,所述基于对象存储的爬虫结果存储方法,还包括:根据网络爬虫的编号和所述网络爬虫爬取的爬取结果文件的内容,生成与爬取结果文件对应的哈希路径,以使每个爬取结果文件都具有唯一的且对应的路径。本专利技术实施例还提供了一种基于对象存储的爬虫结果存储装置,包括:第一路径生成模块、第二路径生成模块、数据存储模块,以及最终结果生成模块;所述第一路径生成模块,用于获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径;所述第二路径生成模块,用于根据所述第一爬取结果文件的属性,生成第一批处理编号,并将所述第一批处理号作为所述第一路径的前缀,生成第二路径;所述数据存储模块,用于将所述第一爬取结果文件上传至对象存储系统,以所述第二路径作为存储路径,并生成第一结果路径日志;其中,所述结果路径日志,用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引;所述最终结果生成模块,用于将所述第一爬取结果文件的来源URL和所述第二路径合并,生成聚合路径,并将所述聚合路径记录在所述第一结果路径日志中的末尾,生成最终结果路径日志。进一步的,所述第一结果路径日志包括三列数据;第一列数据为日志时间,所述日志时间为所述第一爬取结果文件上传至所述对象存储系统的时间;第二列数据为所述第一爬取结果文件的来源URL;第三列数据为所述第二路径。进一步的,所述基于对象存储的爬虫结果存储装置,还包括:哈希路径生成模块;所述哈希路径生成模块,用于根据网络爬虫的编号和所述网络爬虫爬取的爬取结果文件的内容,生成与爬取结果文件对应的哈希路径,以使每个爬取结果文件都具有唯一的且对应的路径。作为本专利技术的优选实施例,本专利技术还提供了一种基于对象存储的爬虫结果存储设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述专利技术实施例所述的基于对象存储的爬虫结果存储方法。本专利技术另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述专利技术实施例所述的基于对象存储的爬虫结果存储方法。与现有技术相比,具有如下有益效果:本专利技术实施例提供的基于对象存储的爬虫结果存储方法,通过获取网络爬虫爬取的第一爬取结果文件,将第一爬取结果文件的原始链接URL添加至第一爬取结果文件生成路径的首行,生成第一路径,再根据第一爬取结果文件的属性,生成第一批处理编号,并将第一批处理号作为第一路径的前缀,生成第二路径,然后将第一爬取结果文件上传至对象存储系统,以第二路径作为存储路径,并生成第一结果路径日志,最后将第一爬取结果文件的来源URL和第二路径合并,生成聚合路径,并将聚合路径记录在第一结果路径日志中的末尾,生成最终结果路径日志,采用本专利技术提供的实施例,实现了支持批处理的爬取结果文件的存储格式,提高了后续对数据查询的效率。附图说明图1是本专利技术提供的基于对象存储的爬虫结果存储方法的一个实施例的流程示意图;图2是本专利技术提供的基于对象存储的爬虫结果存储装置的一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,图1是本专利技术提供的基于对象存储的爬虫结果存储方法的一个实施例的流程示意图;本专利技术实施例提供一种基于对象存储的爬虫结果存储方法,包括步骤S1-S4;S1,获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径。S2,根据所述第一爬取结果文件的属性,生成第一批处理编号,并将所述第一批处理号作为所述第一路径的前缀,生成第二路径。S3,将所述第一爬取结果文件上传至对象存储系统,以所述第二路径作为存储路径,并生成第一结果路径日志。在本实施例中,所述对象存储系统是一个基于分布式文件系统的文件存储系统。从而在降低成本的同时,可提高存储和下载的速度。通过调用HTTP接口传递相应参数,可以实现对对象存储系统上文件的删除(DELETE)、创建(POST)、重写(PUT)。基于HDFS分布式文件系统,对象存储系统可以支持PT级别数量文件的存储。其中,所述结果路径日志,用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引。在外部系统需要调取数据库中的数据时,通过索引可直接得到对象存储系统上所有互相关联的爬虫结果文件。具体的,所述第一结果路径日志包括三列数据;第一列数据为日志时间,所述日本文档来自技高网...

【技术保护点】
1.一种基于对象存储的爬虫结果存储方法,其特征在于,包括以下步骤:获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径;根据所述第一爬取结果文件的属性,生成第一批处理编号,并将所述第一批处理号作为所述第一路径的前缀,生成第二路径;将所述第一爬取结果文件上传至对象存储系统,以所述第二路径作为存储路径,并生成第一结果路径日志;其中,所述结果路径日志,用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引;将所述第一爬取结果文件的来源URL和所述第二路径合并,生成聚合路径,并将所述聚合路径记录在所述第一结果路径日志中的末尾,生成最终结果路径日志。

【技术特征摘要】
1.一种基于对象存储的爬虫结果存储方法,其特征在于,包括以下步骤:获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径;根据所述第一爬取结果文件的属性,生成第一批处理编号,并将所述第一批处理号作为所述第一路径的前缀,生成第二路径;将所述第一爬取结果文件上传至对象存储系统,以所述第二路径作为存储路径,并生成第一结果路径日志;其中,所述结果路径日志,用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引;将所述第一爬取结果文件的来源URL和所述第二路径合并,生成聚合路径,并将所述聚合路径记录在所述第一结果路径日志中的末尾,生成最终结果路径日志。2.如权利要求1所述的基于对象存储的爬虫结果存储方法,其特征在于,所述第一结果路径日志包括三列数据;第一列数据为日志时间,所述日志时间为所述第一爬取结果文件上传至所述对象存储系统的时间;第二列数据为所述第一爬取结果文件的来源URL;第三列数据为所述第二路径。3.如权利要求1所述的基于对象存储的爬虫结果存储方法,其特征在于,还包括:根据网络爬虫的编号和所述网络爬虫爬取的爬取结果文件的内容,生成与爬取结果文件对应的哈希路径,以使每个爬取结果文件都具有唯一的且对应的路径。4.一种基于对象存储的爬虫结果存储装置,其特征在于,包括:第一路径生成模块、第二路径生成模块、数据存储模块,以及最终结果生成模块;所述第一路径生成模块,用于获取网络爬虫爬取的第一爬取结果文件,将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行,并生成所述第一爬取结果文件的第一路径;所述第二路径生成模块,...

【专利技术属性】
技术研发人员:陈开冉黎展邓楚健
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1