网页信息爬取的处理方法和装置制造方法及图纸

技术编号:23705058 阅读:12 留言:0更新日期:2020-04-08 11:12
本申请公开了一种网页信息爬取的处理方法和装置。该方法包括:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。通过本申请,解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。

【技术实现步骤摘要】
网页信息爬取的处理方法和装置
本申请涉及信息爬取
,具体而言,涉及一种网页信息爬取的处理方法和装置。
技术介绍
在采集信息进行分析决策的过程中,常常需要通过爬虫平台爬取网页上的数据,但是,由于网站设置,爬虫平台设置等各方面原因,目标页面上所能看到的数据不一定能够通过爬虫抓取下来,难以判断过爬虫平台的一个种子抓取到了哪些数据,是否抓取到用户所需的数据。为了判断爬虫平台是否抓取到用户所需的数据,相关技术中是通过开发人员在搜索引擎中根据一个种子的统一资源定位符查找抓到哪些数据;或是通过业务人员人工将种子抓取到的数据与客户提供的列表信息进行对比,查找抓取的数据未覆盖的数据并进行反馈,最终分析数据未能抓取解析成功的原因。然而,由开发人员排查爬虫平台通过一个种子能抓取并解析多少内容是实现起来较为困难,由业务人员对比客户提供的列表排查数据覆盖情况,更加繁琐,且存在客户反馈数据缺失的情况,容易疏漏。针对相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种网页信息爬取的处理方法和装置,以解决相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。为了实现上述目的,根据本申请的一个方面,提供了一种网页信息爬取的处理方法。该方法包括:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。进一步地,在获取目标网页的爬取结果之前,方法还包括:通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,爬虫平台中设置有多个过滤器,多个过滤器用于过滤网页信息的链接。进一步地,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接位于第一链接列表中,被过滤的网页信息的链接位于第二链接列表中,目标信息的链接至少为一条,根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取包括:判断目标信息的链接是否均位于第一链接列表内;在目标信息的链接均位于第一链接列表内的情况下,确定目标信息的链接被成功爬取;和/或,在目标信息的链接并非均位于第一链接列表的情况下,方法还包括:判断第二链接列表内是否存在目标信息的链接;在第二链接列表内存在目标信息的链接的情况下,确定目标过滤器过滤了目标信息的链接。进一步地,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。进一步地,在确定目标过滤器过滤了目标信息的链接之后,方法还包括:在爬虫平台上取消目标过滤器的设置;在取消目标过滤器的设置之后,通过爬虫平台中的目标种子爬取被目标过滤器过滤的目标网页中的网页信息。进一步地,方法还包括:在通过爬虫平台中的目标种子爬取目标网页中的网页信息之后,若爬取结果为空,则确定爬取操作执行失败;和/或,获取爬取失败的网页日志信息并基于爬取失败的网页日志信息制定解决方案;在执行解决方案之后,重新执行通过爬虫平台中的目标种子爬取目标网页中的网页信息的步骤。进一步地,在获取目标网页的爬取结果之前,方法还包括:检测在爬取目标网页中的网页信息的过程中获取到的统一资源定位符的数量;在统一资源定位符的数量不等于目标网页的数量的情况下,确定在爬取目标网页中的网页信息的过程中存在翻页问题。为了实现上述目的,根据本申请的另一方面,提供了一种网页信息爬取的处理装置。该装置包括:第一获取单元,用于获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;第一确定单元,用于根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。通过本申请,采用以下步骤:获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取,解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。通过对爬取目标网页中的网页信息获取到的第一链接列表和第二链接列表进行分析,进而达到了准确获知通过爬虫种子是否能够抓取到目标信息的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例提供的网页信息爬取的处理方法的流程图;图2是根据本申请实施例提供的网页信息爬取的处理方法中预爬取的窗口的示意图;以及图3是根据本申请实施例提供的网页信息爬取的处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:url:UniformPesourceLocator,统一资源定位符,是对可以从互联网上得到的资源的位置和访问方法的一种表示。根据本申请的实施例,提供了一种网页信息爬取的处理方法。图1是根据本申请实施例的网页信息爬取的处理方法的流程图。如图1所示,该方法包括以下步骤:步骤S101,获取目标网页的爬取结果,爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;需要说明的是,可以通过信源系统获取目标网页的爬取结果,信源系统为管理爬虫种子的系统,信源系统中嵌入有预爬取功能,在预爬取功能下,爬虫平台按照正常爬取的程序逻辑爬取网页信息,同时还可以获取爬取过程中产生的日志信息。本文档来自技高网
...

【技术保护点】
1.一种网页信息爬取的处理方法,其特征在于,包括:/n获取目标网页的爬取结果,所述爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;/n根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。/n

【技术特征摘要】
1.一种网页信息爬取的处理方法,其特征在于,包括:
获取目标网页的爬取结果,所述爬取结果包括:成功爬取的网页信息的链接和被过滤的网页信息的链接,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示;
根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。


2.根据权利要求1所述的方法,其特征在于,在获取所述目标网页的爬取结果之前,所述方法还包括:
通过爬虫平台中的目标种子爬取目标网页中的网页信息,其中,所述爬虫平台中设置有多个过滤器,所述多个过滤器用于过滤网页信息的链接。


3.根据权利要求2所述的方法,其特征在于,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:所述成功爬取的网页信息的链接位于第一链接列表中,所述被过滤的网页信息的链接位于第二链接列表中,所述目标信息的链接至少为一条,根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取包括:
判断所述目标信息的链接是否均位于所述第一链接列表内;
在所述目标信息的链接均位于所述第一链接列表内的情况下,确定所述目标信息的链接被成功爬取;和/或,
在所述目标信息的链接并非均位于所述第一链接列表的情况下,所述方法还包括:判断所述第二链接列表内是否存在所述目标信息的链接;
在所述第二链接列表内存在所述目标信息的链接的情况下,确定目标过滤器过滤了所述目标信息的链接。


4.根据权利要求1所述的方法,其特征在于,所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括:
所述成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示:采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。


5.根据权利要求3所...

【专利技术属性】
技术研发人员:陈发发
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1