网页的爬取方法和装置制造方法及图纸

技术编号：14900703 阅读：146 留言：0更新日期：2017-03-29 16:10

本发明专利技术公开了一种网页的爬取方法和装置。其中，该方法包括：在网络爬虫爬取目标网页时，检测目标网页是否有分页；当检测出目标网页有分页时，爬取目标网页的全部分页。本发明专利技术解决了现有技术中爬取网页过程中的数据遗漏的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络爬虫领域，具体而言，涉及一种网页的爬取方法和装置。
技术介绍
利用网络爬虫爬取网页时，总是会遇到某篇文章因为文字太多而被分页的情况。在这种情况下，同一篇文章的信息会被分开放置在至少两个不同的页面中。专利技术人发现，目前的网络爬虫在爬取网页时仅针对单一网页进行爬取，所以遇到一篇文章被分页时，只能爬取第一个页面，使得爬取的内容仅包括一篇文章的部分内容，导致爬取网页过程中的数据遗漏。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页的爬取方法和装置，以至少解决现有技术中爬取网页过程中的数据遗漏的技术问题。根据本专利技术实施例的一个方面，提供了一种网页的爬取方法，包括：在网络爬虫爬取目标网页时，检测所述目标网页是否有分页；当检测出所述目标网页有分页时，爬取所述目标网页的全部分页。根据本专利技术实施例的另一方面，还提供了一种网页的爬取装置，包括：检测单元，用于在网络爬虫爬取目标网页时，检测所述目标网页是否有分页；爬取单元，用于当检测出所述目标网页有分页时，爬取所述目标网页的全部分页。在本专利技术实施例中，采用在网络爬虫爬取目标网页时，检测所述目标网页是否有分页；当检测出所述目标网页有分页时，爬取所述目标网页的全部分页的方式，在利用网络爬虫爬取目标网页时，检测目标网页是否有分页，在有分页的情况下爬取该网页的所有分页。由于在爬取的过程中所有分页都被爬取，因此，不会出现有分页没有被爬取所导致的数据遗漏的问题，达到了爬取所有分页数据，不遗漏分页数据的技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解，构...

【技术保护点】
一种网页的爬取方法，其特征在于，包括：在网络爬虫爬取目标网页时，检测所述目标网页是否有分页；当检测出所述目标网页有分页时，爬取所述目标网页的全部分页。

【技术特征摘要】
1.一种网页的爬取方法，其特征在于，包括：在网络爬虫爬取目标网页时，检测所述目标网页是否有分页；当检测出所述目标网页有分页时，爬取所述目标网页的全部分页。2.根据权利要求1所述的方法，其特征在于，爬取所述目标网页的全部分页包括：从所述目标网页中提取其分页的链接，爬取与提取的链接对应的网页，并将该网页作为当前网页；对当前网页执行如下步骤，直到检测出当前网页没有分页为止：检测当前网页是否有分页，当检测出该当前网页有分页时，从该当前网页中提取其分页的链接，爬取与提取的链接对应的网页，并将该网页作为当前网页。3.根据权利要求2所述的方法，其特征在于，从网页中提取其分页的链接包括：提取网页的所有链接，得到至少一个链接；从所述至少一个链接中查找与所述网页的链接相匹配的链接；将与所述网页的链接相匹配的链接作为该网页的分页的链接。4.根据权利要求2所述的方法，其特征在于，检测网页是否有分页包括：检测网页中是否具有分页标签，当检测出网页中具有分页标签时，则确定该网页具有分页。5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述方法还包括：收集所述目标网页的全部分页的爬取结果，得到至少两个爬取结果；将所述至少两个爬取结果保存为一个爬取结果，以作为所述目标网页的爬取结果。6.一种网页的爬取装置，其特征在于，包括：检测...

【专利技术属性】
技术研发人员：崔志伸，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人