用于爬虫的数据存储方法及装置制造方法及图纸

技术编号：15329001 阅读：48 留言：0更新日期：2017-05-16 12:46

本发明专利技术公开了一种用于爬虫的数据存储方法及装置。其中，该方法包括：将爬虫的爬取结果的文件大小与预先设置的阈值进行比较；当爬取结果的文件大小大于或等于阈值时，将爬取结果存储至第一存储位置；生成与爬取结果对应的唯一标识信息，其中，唯一标识信息用于对存储于第一存储位置的爬取结果进行唯一索引；将唯一标识信息发送至存储队列。本发明专利技术解决了由于待存储队列中数据量过大，导致的分布式爬虫系统运行稳定性差的技术问题。

Data storage method and device for crawler

The invention discloses a data storage method and a device for reptiles. Among them, the method comprises the following steps: crawling the file size and the preset threshold are compared; when crawling the file size is greater than or equal to the threshold, will climb from the results stored in the first storage location; unique identification information, generating and crawling results corresponding to the unique identification information for stored in the first storage location of the crawling results were the only index; will only send the information to the store queue ID. The invention solves the technical problem that the distributed crawler system has poor operation stability due to the large amount of data in the queue to be stored.

全部详细技术资料下载

【技术实现步骤摘要】
用于爬虫的数据存储方法及装置
本专利技术涉及互联网领域，具体而言，涉及一种用于爬虫的数据存储方法及装置。
技术介绍
爬虫程序是一种常见的用于收集网络数据的机器人程序。往往由于需要收集的网络数据众多，所以单个爬虫程序是无法胜任的。目前，为了提升对网络数据进行收集的收集速度，出现了分布式爬虫系统。其中，分布式爬虫系统通过多台部署有爬虫程序的服务器对网络数据进行协作爬取。在分布式爬虫系统中，为了使多台服务器协作爬取，通常会在系统中设置任务队列和存储队列。在实际应用当中，可以预先将配置好的包含有需要爬取的网络地址和爬取行为规则的爬取任务写入到任务队列当中。在通过分布式爬虫系统进行爬取时，每台部署有爬虫程序的服务器会依次从任务队列中获取爬取任务，并根据爬取任务进行爬取。当部署有爬虫程序的服务器获取到爬取结果后，将爬取结果发送至用于存储爬取结果的存储队列当中。最后，再由用于存储数据的存储程序将存储队列中的爬取结果存放至指定位置当中。在上述分布式爬虫系统中存在如下缺点：1、当存储队列中积压数据过多，而导致存储程序崩溃后，将导致数据满载，使分布式爬虫系统无法正常运行。2、将爬取结果直接存储数据库会带来性能损耗，将爬取结果直接存储至存储队列中，会因内存容量有限，影响系统稳定性。针对上述现有技术中由于存储队列中数据量过大，导致的分布式爬虫系统运行稳定性差的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种用于爬虫的数据存储方法及装置，以至少解决由于存储队列中数据量过大，导致的分布式爬虫系统运行稳定性差的技术问题。根据本专利技术实施例的一个方面，提供了一种...

【技术保护点】
一种用于爬虫的数据存储方法，其特征在于，包括：将爬虫的爬取结果的文件大小与预先设置的阈值进行比较；当所述爬取结果的文件大小大于或等于所述阈值时，将所述爬取结果存储至第一存储位置；生成与所述爬取结果对应的唯一标识信息，其中，所述唯一标识信息用于对存储于所述第一存储位置的爬取结果进行唯一索引；将所述唯一标识信息发送至存储队列。

【技术特征摘要】
1.一种用于爬虫的数据存储方法，其特征在于，包括：将爬虫的爬取结果的文件大小与预先设置的阈值进行比较；当所述爬取结果的文件大小大于或等于所述阈值时，将所述爬取结果存储至第一存储位置；生成与所述爬取结果对应的唯一标识信息，其中，所述唯一标识信息用于对存储于所述第一存储位置的爬取结果进行唯一索引；将所述唯一标识信息发送至存储队列。2.根据权利要求1所述的方法，其特征在于，在将所述唯一标识信息发送至存储队列之后，所述方法还包括：通过存储程序依次从所述存储队列中读取待存储的数据内容；当所述存储程序在所述存储队列中读取到所述唯一标识信息时，所述存储程序从所述第一存储位置获取与所述唯一标识信息对应的爬取结果；以及通过所述存储程序将与所述唯一标识信息对应的所述爬取结果发送至第二存储位置。3.根据权利要求2所述的方法，其特征在于，生成与所述爬取结果对应的唯一标识信息包括：对所述爬取结果进行压缩处理，得到压缩数据文件；以及根据所述压缩数据文件，生成与所述压缩数据文件对应的所述唯一标识信息。4.根据权利要求3所述的方法，其特征在于，在通过所述存储程序将与所述唯一标识信息对应的所述爬取结果发送至第二存储位置之前，所述方法还包括：对所述压缩数据文件进行解压处理，得到所述爬取数据文件。5.根据权利要求1至4中任意一项所述的方法，其特征在于，将所述唯一标识信息存储至存储队列包括：获取爬取到的所述爬取结果的爬取时间；以及根据所述爬取时间的时间顺序，将所述爬取结果和/或所述唯一标识信息依次发送至所述存储队列。6.一种...

【专利技术属性】
技术研发人员：杨杰，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人