网页爬取请求处理方法和装置制造方法及图纸

技术编号：15329560 阅读：59 留言：0更新日期：2017-05-16 13:12

本申请公开了一种网页爬取请求处理方法和装置。其中，该方法包括：获取新解析得到的待爬取请求，其中，待爬取请求包括待爬取页面的链接；判断是否存在存储文件，其中，存储文件用于存储待爬取请求；在判断出不存在存储文件时，将新解析得到的待爬取请求存储于请求队列中；以及在判断出存在存储文件时，将新解析得到的待爬取请求存储于存储文件中。本申请解决了直接将大量的网页爬取请求存储于内存中耗费内存空间的技术问题。

Page crawling request processing method and device

The invention discloses a page crawling request processing method and a device. Among them, the method comprises: acquiring new resolved to take up the request, the request to be got to include crawling page links; and determine whether there is the storage file, the file storage for storing to crawl request; when it is determined that the storage file does not exist, will be resolved to take up new the request is stored in the request queue; and the stored file exists when it is judged that the new will be resolved to climb from the request is stored in the storage file. The application solves the technical problem of directly storing a large amount of web pages and storing the memory in memory.

全部详细技术资料下载

【技术实现步骤摘要】
网页爬取请求处理方法和装置
本申请涉及数据处理领域，具体而言，涉及一种网页爬取请求处理方法和装置。
技术介绍
网络爬虫在爬取页面的过程中，会不断解析出新的页面链接，网络爬虫需要根据这些页面链接构建新的爬取请求去爬取页面，而爬取的页面又会解析出新的页面链接，构建新的爬取请求，以此类推，直到爬取结束。由于新页面的产生速度往往远快于网络爬虫爬取网页的速度，因此需要把这些新的页面链接保存到一个队列里，作为待爬取请求队列。在页面数量及其庞大的情形下，该待爬取请求队列的数据量将会急剧膨胀，造成内存的大量消耗。由于待爬取链接的生成速度远大于网络爬虫爬取这些链接的速度，如果直接将待爬取链接保存到内存，一方面浪费了大量空间，另一方面在爬虫程序崩溃退出时会造成数据丢失。针对相关技术中直接将大量的网页爬取请求存储于内存中耗费内存空间的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种网页爬取请求处理方法和装置，以解决直接将大量的网页爬取请求存储于内存中耗费内存空间的问题。为了实现上述目的，根据本申请的一个方面，提供了一种网页爬取请求处理方法。该方法包括：获取新解...

【技术保护点】
一种网页爬取请求处理方法，其特征在于，包括：获取新解析得到的待爬取请求，其中，所述待爬取请求包括待爬取页面的链接；判断是否存在存储文件，其中，所述存储文件用于存储待爬取请求；在判断出不存在所述存储文件时，将所述新解析得到的待爬取请求存储于请求队列中；以及在判断出存在所述存储文件时，将所述新解析得到的待爬取请求存储于所述存储文件中。

【技术特征摘要】
1.一种网页爬取请求处理方法，其特征在于，包括：获取新解析得到的待爬取请求，其中，所述待爬取请求包括待爬取页面的链接；判断是否存在存储文件，其中，所述存储文件用于存储待爬取请求；在判断出不存在所述存储文件时，将所述新解析得到的待爬取请求存储于请求队列中；以及在判断出存在所述存储文件时，将所述新解析得到的待爬取请求存储于所述存储文件中。2.根据权利要求1所述的方法，其特征在于，在判断出不存在所述存储文件时，将所述新解析得到的待爬取请求存储于请求队列中包括：获取所述新解析得到的待爬取请求的数量和所述请求队列中已存储的待爬取请求的数量；判断所述新解析得到的待爬取请求的数量和所述请求队列中已存储的待爬取请求的数量之和是否小于第一预设值；当判断出所述新解析得到的待爬取请求的数量和所述请求队列中已存储的待爬取请求的数量之和小于所述第一预设值时，将所述新解析得到的待爬取请求存储于所述请求队列中。3.根据权利要求2所述的方法，其特征在于，当判断出所述新解析得到的待爬取请求的数量和所述请求队列中已存储的待爬取请求的数量之和不小于所述第一预设值时，所述方法还包括：创建存储文件；以及将所述新解析得到的待爬取请求存储于所述存储文件中。4.根据权利要求1所述的方法，其特征在于，在判断出存在所述存储文件时，将所述新解析得到的待爬取请求存储于所述存储文件中包括：判断所述存储文件的大小是否大于第二预设值；在判断出所述存储文件的大小小于所述第二预设值时，将所述新解析得到的待爬取请求存储于所述存储文件中；在判断出所述存储文件的大小不小于所述第二预设值时，创建新的存储文件；以及将所述新解析得到的待爬取请求存储于所述新的存储文件中。5.根据权利要求1所述的方法，其特征在于，将所述新解析得到的待爬取请求存储于所述存储文件中包括：对所述新解析得到的待爬取请求进行二进制编码，得到二进制的待爬取请求；以及将所述二进制的待爬取请求存储于所述存储文件中。6.根据权利要求1所述的方法，其特征在于，在获取新解析得到的待爬取请求之前，所述方法还包括：判断是否存在所述存储文件；当判断出存在所述存储文件时，从所述存储文件中读取待爬取请...

【专利技术属性】
技术研发人员：何熠皓，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人