一种基于对象存储的爬虫结果存储方法及装置制造方法及图纸

技术编号：22308155 阅读：29 留言：0更新日期：2019-10-16 08:15

本发明专利技术公开了一种基于对象存储的爬虫结果存储方法，通过获取网络爬虫爬取的第一爬取结果文件，将第一爬取结果文件的原始链接URL添加至第一爬取结果文件生成路径的首行，生成第一路径，再根据第一爬取结果文件的属性，生成第一批处理编号，并将第一批处理号作为第一路径的前缀，生成第二路径，然后将第一爬取结果文件上传至对象存储系统，以第二路径作为存储路径，并生成第一结果路径日志，最后将第一爬取结果文件的来源URL和第二路径合并，生成聚合路径，并将聚合路径记录在第一结果路径日志中的末尾，生成最终结果路径日志，采用本发明专利技术提供的实施例，实现了支持批处理的爬取结果文件的存储格式，提高了后续对数据查询的效率。

A method and device for storing crawler results based on object storage

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对象存储的爬虫结果存储方法及装置
本专利技术涉及互联网
，尤其涉及一种基于对象存储的爬虫结果存储方法及装置。
技术介绍
网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，在目前的路径追踪中，大多是以爬虫任务为基本单位来进行爬虫网络路径追踪，结果一般是以网页为单位存储到数据库，或直接存储到文件系统中，在需要调取相关数据时查询数据库或由下游系统去遍历文件系统的文件夹。现有技术中还提到另一种方法，即基于对象存储并使用爬虫日志对结果进行追踪。该方法通过建立结果路径日志，在外部系统调取数据时可在该日志中进行检索，而无需去数据库中检索，因此避免了可能产生的读写冲突。但在现有技术中，无不是以爬虫任务为基本单位进行爬虫网络路径追踪，这会遇到以下问题：1、若直接使用数据库或文件存储，存在效率问题。2、数据清洗是需要结合多个爬取结果文件的，若结果储存分散，则难以快速查询到所有相关结果。3、若以结果路径日志进行追踪，难免遇到日志切割问题，一旦相关结果存在于不同的日志中，将难以找寻到所有相关结果。
技术实现思路
本专利技术实施例的目的是提供一种基于对象存储的爬虫结果存储方法，实现了支持批处理的爬取结果文件的存储格式，提高了后续对数据查询的效率。为实现上述目的，本专利技术实施例提供了一种基于对象存储的爬虫结果存储方法，包括以下步骤：获取网络爬虫爬取的第一爬取结果文件，将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行，并生成所述第一爬取结果文件的第一路径；根据所述第一爬取结果文件的属性，生成第一批处理编号，并将所述第一批处理号作为所述第...

【技术保护点】
1.一种基于对象存储的爬虫结果存储方法，其特征在于，包括以下步骤：获取网络爬虫爬取的第一爬取结果文件，将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行，并生成所述第一爬取结果文件的第一路径；根据所述第一爬取结果文件的属性，生成第一批处理编号，并将所述第一批处理号作为所述第一路径的前缀，生成第二路径；将所述第一爬取结果文件上传至对象存储系统，以所述第二路径作为存储路径，并生成第一结果路径日志；其中，所述结果路径日志，用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引；将所述第一爬取结果文件的来源URL和所述第二路径合并，生成聚合路径，并将所述聚合路径记录在所述第一结果路径日志中的末尾，生成最终结果路径日志。

【技术特征摘要】
1.一种基于对象存储的爬虫结果存储方法，其特征在于，包括以下步骤：获取网络爬虫爬取的第一爬取结果文件，将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行，并生成所述第一爬取结果文件的第一路径；根据所述第一爬取结果文件的属性，生成第一批处理编号，并将所述第一批处理号作为所述第一路径的前缀，生成第二路径；将所述第一爬取结果文件上传至对象存储系统，以所述第二路径作为存储路径，并生成第一结果路径日志；其中，所述结果路径日志，用于记录爬取结果文件的来源URL到所述对象存储系统中存储对应爬取结果文件路径的索引；将所述第一爬取结果文件的来源URL和所述第二路径合并，生成聚合路径，并将所述聚合路径记录在所述第一结果路径日志中的末尾，生成最终结果路径日志。2.如权利要求1所述的基于对象存储的爬虫结果存储方法，其特征在于，所述第一结果路径日志包括三列数据；第一列数据为日志时间，所述日志时间为所述第一爬取结果文件上传至所述对象存储系统的时间；第二列数据为所述第一爬取结果文件的来源URL；第三列数据为所述第二路径。3.如权利要求1所述的基于对象存储的爬虫结果存储方法，其特征在于，还包括：根据网络爬虫的编号和所述网络爬虫爬取的爬取结果文件的内容，生成与爬取结果文件对应的哈希路径，以使每个爬取结果文件都具有唯一的且对应的路径。4.一种基于对象存储的爬虫结果存储装置，其特征在于，包括：第一路径生成模块、第二路径生成模块、数据存储模块，以及最终结果生成模块；所述第一路径生成模块，用于获取网络爬虫爬取的第一爬取结果文件，将所述第一爬取结果文件的原始链接URL添加至所述第一爬取结果文件的首行，并生成所述第一爬取结果文件的第一路径；所述第二路径生成模块，...

【专利技术属性】
技术研发人员：陈开冉，黎展，邓楚健，
申请(专利权)人：广州探迹科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人