用于爬虫的数据处理方法及装置制造方法及图纸

技术编号：15329573 阅读：52 留言：0更新日期：2017-05-16 13:13

本发明专利技术公开了一种用于爬虫的数据处理方法及装置。其中，该方法包括：获取待爬取任务信息，其中，待爬取任务信息中至少包括待爬取任务对应的预设分页数量；将待爬取任务的第一分页作为当前分页，对当前分页执行如下步骤，直到与当前分页对应的当前已爬取分页数量等于预设分页数量为止：爬取当前分页，累计当前已爬取分页数量；将当前已爬取分页数量与预设分页数量进行比较；当当前已爬取分页数量小于预设分页数量时，将当前分页的下一分页作为当前分页。本发明专利技术解决了由于对具有分页机制的网页进行全部爬取，导致的服务器资源浪费的技术问题。

Data processing method and device for reptiles

The invention discloses a data processing method and a device for reptiles. Among them, the method includes: acquiring for crawling task information, which, to be crawling task information including at least number of preset paging to be got the corresponding task; to be climbing the first paging quests as the current page, the following steps are executed until the current page, and the current page corresponding to the already crawling page the number is equal to the preset number of pages so far: climb from the current page, the current total has been crawling the number of pages; the current has been crawling the number of pages with the preset number of pages are compared; when the current has been crawling the paging number is less than a preset number of pages, the page next page as the current page. The invention solves the technical problem of waste of server resources caused by crawling all pages with paging mechanism.

全部详细技术资料下载

【技术实现步骤摘要】
用于爬虫的数据处理方法及装置
本专利技术涉及互联网领域，具体而言，涉及一种用于爬虫的数据处理方法及装置。
技术介绍
在互联网中，网站上的某些新闻内容或者本文内容过于冗长。网站为了方便用户阅读，经常会引入分页机制。例如，一篇文章分为3页展示给阅读者、一个BBS主题下有多页相关的帖子信息。当爬虫程序在遇到上述具有分页机制的互联网资源时，通常会对所有的分页信息进行爬取。例如，一篇小说被分为30页，爬虫程序会对每一页进行爬取，共爬取30次；一个建立时间较长的论坛主题下的一篇300页的帖子文章，爬虫程序会对300页都进行爬取。在实际应用当中，具有分页机制的互联网资源中，往往有利用价值的内容只存在于前面几页当中，而现有的爬虫程序会将上述互联网资源中的每个分页都进行爬取。现有的爬虫程序对具有分页机制的互联网资源中的所有分页页面的全部进行爬取，这种方法存在如下缺点：1、把指定互联网资源中的所有分页进行完全爬取，将会极大地浪费服务器资源。2、无法根据不同的互联网资源的类型，以不同的方式进行爬取，导致爬取的灵活度不足。例如，在面对具有分页机制的新闻文章时需要爬取所有的分页，对于具有分...
用于爬虫的数据处理方法及装置

【技术保护点】
一种用于爬虫的数据处理方法，其特征在于，包括：获取待爬取任务信息，其中，所述待爬取任务信息中至少包括所述待爬取任务对应的预设分页数量；将所述待爬取任务的第一分页作为当前分页，对当前分页执行如下步骤，直到与当前分页对应的当前已爬取分页数量等于所述预设分页数量为止：爬取当前分页，累计当前已爬取分页数量；将所述当前已爬取分页数量与所述预设分页数量进行比较；当所述当前已爬取分页数量小于所述预设分页数量时，将当前分页的下一分页作为当前分页。

【技术特征摘要】
1.一种用于爬虫的数据处理方法，其特征在于，包括：获取待爬取任务信息，其中，所述待爬取任务信息中至少包括所述待爬取任务对应的预设分页数量；将所述待爬取任务的第一分页作为当前分页，对当前分页执行如下步骤，直到与当前分页对应的当前已爬取分页数量等于所述预设分页数量为止：爬取当前分页，累计当前已爬取分页数量；将所述当前已爬取分页数量与所述预设分页数量进行比较；当所述当前已爬取分页数量小于所述预设分页数量时，将当前分页的下一分页作为当前分页。2.根据权利要求1所述的方法，其特征在于，获取待爬取任务信息包括：获取所述待爬取任务的任务地址；获取所述待爬取任务对应的任务类型；以及根据所述任务类型，确定与所述任务地址对应的预设分页数量。3.根据权利要求1所述的方法，其特征在于，将当前分页的下一分页作为当前分页，包括：对所述当前分页对应的已爬取地址信息进行解析，确定与所述待爬取任务的下一分页对应的待爬取地址信息；以及将所述待爬取地址信息对应的下一分页，作为待爬取的当前分页。4.根据权利要求3所述的方法，其特征在于，对所述当前分页对应的已爬取地址信息进行解析，确定与所述待爬取任务的下一分页对应的待爬取地址信息，包括：获取所述待爬取任务的所述当前分页对应的所述已爬取地址信息；按照预定解析规则对所述已爬取地址信息进行解析，确定在所述已爬取地址信息中用于记载页码信息的字符位置；以及对所述字符位置中的字符进行替换，生成所述待爬取任务的下一分页对应的所述待爬取地址信息。5.一种用于爬虫的数据处理装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：杨杰，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人