网页的爬取方法和装置制造方法及图纸

技术编号:14900703 阅读:146 留言:0更新日期:2017-03-29 16:10
本发明专利技术公开了一种网页的爬取方法和装置。其中,该方法包括:在网络爬虫爬取目标网页时,检测目标网页是否有分页;当检测出目标网页有分页时,爬取目标网页的全部分页。本发明专利技术解决了现有技术中爬取网页过程中的数据遗漏的技术问题。

【技术实现步骤摘要】

本专利技术涉及网络爬虫领域,具体而言,涉及一种网页的爬取方法和装置。
技术介绍
利用网络爬虫爬取网页时,总是会遇到某篇文章因为文字太多而被分页的情况。在这种情况下,同一篇文章的信息会被分开放置在至少两个不同的页面中。专利技术人发现,目前的网络爬虫在爬取网页时仅针对单一网页进行爬取,所以遇到一篇文章被分页时,只能爬取第一个页面,使得爬取的内容仅包括一篇文章的部分内容,导致爬取网页过程中的数据遗漏。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页的爬取方法和装置,以至少解决现有技术中爬取网页过程中的数据遗漏的技术问题。根据本专利技术实施例的一个方面,提供了一种网页的爬取方法,包括:在网络爬虫爬取目标网页时,检测所述目标网页是否有分页;当检测出所述目标网页有分页时,爬取所述目标网页的全部分页。根据本专利技术实施例的另一方面,还提供了一种网页的爬取装置,包括:检测单元,用于在网络爬虫爬取目标网页时,检测所述目标网页是否有分页;爬取单元,用于当检测出所述目标网页有分页时,爬取所述目标网页的全部分页。在本专利技术实施例中,采用在网络爬虫爬取目标网页时,检测所述目标网页是否有分页;当检测出所述目标网页有分页时,爬取所述目标网页的全部分页的方式,在利用网络爬虫爬取目标网页时,检测目标网页是否有分页,在有分页的情况下爬取该网页的所有分页。由于在爬取的过程中所有分页都被爬取,因此,不会出现有分页没有被爬取所导致的数据遗漏的问题,达到了爬取所有分页数据,不遗漏分页数据的技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的网页的爬取方法的流程图;图2是根据本专利技术实施例的网页的爬取装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种网页的爬取方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的网页的爬取方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,在网络爬虫爬取目标网页时,检测目标网页是否有分页。步骤S104,当检测出目标网页有分页时,爬取目标网页的全部分页。在利用网络爬虫爬取目标网页时,检测目标网页是否有分页,在有分页的情况下爬取该网页的所有分页。由于在爬取的过程中所有分页都被爬取,因此,不会出现有分页没有被爬取所导致的数据遗漏的问题,达到了爬取所有分页数据,不遗漏分页数据的技术效果。可选地,爬取目标网页的全部分页包括:从目标网页中提取其分页的链接,爬取与提取的链接对应的网页,并将该网页作为当前网页;对当前网页执行如下步骤,直到检测出当前网页没有分页为止:检测当前网页是否有分页,当检测出该当前网页有分页时,从该当前网页中提取其分页的链接,爬取与提取的链接对应的网页,并将该网页作为当前网页。例如,网络爬虫爬取目标网页www.xinwen.com/junshi/A/1,该网页是某军事新闻的第一页,其还有第二页和第三页,即该军事新闻的全部内容分三个页面展示。在爬取目标网页www.xinwen.com/junshi/A/1时,爬取到该目标网页的下一个分页的链接,即第二页的链接www.xinwen.com/junshi/A/2。按照第二页的链接爬取第二页,判断第二页是否有分页,如果有分页,则在爬取第二页的时候提取第二页中的第三页的链接,然后按照第三页的链接爬取第三页。由于第三页为最后一个分页,在爬取第三页时检测出没有分页,则爬取第三页之后就完成对目标网页的所有分页的爬取,不再继续爬取。在目标网页有多个分页的情况下,按照上述方法依次从当前分页提取下一个分页的链接,直到目标网页的全部分页都完成爬取。由于通过当前分页判断是否有下一个分页,并在有下一个分页的情况下爬取下一个页面,直到目标网页的所有分页都完成爬取。与现有技术的爬取目标网页后并不判断是否有分页的情况相比,本实施例能够爬取目标网页的所有分页,依次爬取下一个分页的方法也能避免遗漏分页的情况,解决了现有技术中网页数据被遗漏的技术问题,达到了不遗漏网页数据的技术效果。可选地,从网页中提取其分页的链接包括:提取网页的所有链接,得到至少一个链接;从至少一个链接中查找与网页的链接相匹配的链接;将与网页的链接相匹配的链接作为下一个分页的链接。在爬取网页时,可以提取网页的所有链接。在当前分页不是最后一个分页的情况下,提取的所有链接中的一个链接是下一个分页的链接,因此,从当前分页中能够提取下一个分页的链接。通常,相邻两个分页的链接具有一定的规律,比如www.xinwen.com/junshi/A/1和www.xinwen.com/junshi/A/2,这二者仅仅是标记页面序号的不同,可以采用判断相似度的方式从当前页面的所有连接中查找与目标网页链接相匹配的链接,或者与当前页面链接相匹配的链接。具有分页的页面通常会有“下一页”的标记,该标记所对应的链接则为下一个分页的链接,因此,通过查找“下一页”的标记页也可以获取下一个分页的链接。本实施例还可以采用其他方式从当前分页的链接中匹配到下一个分页的链接,从目标网页和分页中提取分页链接的方法都相同,此处不再一一赘述。可选地,检测目标网页是否有分页包括:检测网页中是否具有分页标签,当检测出网页中具有分页标签时,则确定该网页具有分页。。在判断目标网页是否有分页时,可以通过判断当前页面是否有分页标签来确定是否有分页。为了便于用户查看下一页内容,通常页面上会显示可点击的“下一页”的标签,该标签对应的后台编码可以是“</span></a><ahref=\/ns?word=%E5%9F%9F%E5%90%8D&pn=20&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0&rsv_page=1\class=\n\>本文档来自技高网
...

【技术保护点】
一种网页的爬取方法,其特征在于,包括:在网络爬虫爬取目标网页时,检测所述目标网页是否有分页;当检测出所述目标网页有分页时,爬取所述目标网页的全部分页。

【技术特征摘要】
1.一种网页的爬取方法,其特征在于,包括:在网络爬虫爬取目标网页时,检测所述目标网页是否有分页;当检测出所述目标网页有分页时,爬取所述目标网页的全部分页。2.根据权利要求1所述的方法,其特征在于,爬取所述目标网页的全部分页包括:从所述目标网页中提取其分页的链接,爬取与提取的链接对应的网页,并将该网页作为当前网页;对当前网页执行如下步骤,直到检测出当前网页没有分页为止:检测当前网页是否有分页,当检测出该当前网页有分页时,从该当前网页中提取其分页的链接,爬取与提取的链接对应的网页,并将该网页作为当前网页。3.根据权利要求2所述的方法,其特征在于,从网页中提取其分页的链接包括:提取网页的所有链接,得到至少一个链接;从所述至少一个链接中查找与所述网页的链接相匹配的链接;将与所述网页的链接相匹配的链接作为该网页的分页的链接。4.根据权利要求2所述的方法,其特征在于,检测网页是否有分页包括:检测网页中是否具有分页标签,当检测出网页中具有分页标签时,则确定该网页具有分页。5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述方法还包括:收集所述目标网页的全部分页的爬取结果,得到至少两个爬取结果;将所述至少两个爬取结果保存为一个爬取结果,以作为所述目标网页的爬取结果。6.一种网页的爬取装置,其特征在于,包括:检测...

【专利技术属性】
技术研发人员:崔志伸
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1