网页信息爬取的处理方法和装置制造方法及图纸

技术编号：23705058 阅读：23 留言：0更新日期：2020-04-08 11:12

本申请公开了一种网页信息爬取的处理方法和装置。该方法包括：获取目标网页的爬取结果，爬取结果包括：成功爬取的网页信息的链接和被过滤的网页信息的链接，成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示；根据爬取结果确定目标网页中的目标信息的链接是否被成功爬取。通过本申请，解决了相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】
网页信息爬取的处理方法和装置
本申请涉及信息爬取
，具体而言，涉及一种网页信息爬取的处理方法和装置。
技术介绍
在采集信息进行分析决策的过程中，常常需要通过爬虫平台爬取网页上的数据，但是，由于网站设置，爬虫平台设置等各方面原因，目标页面上所能看到的数据不一定能够通过爬虫抓取下来，难以判断过爬虫平台的一个种子抓取到了哪些数据，是否抓取到用户所需的数据。为了判断爬虫平台是否抓取到用户所需的数据，相关技术中是通过开发人员在搜索引擎中根据一个种子的统一资源定位符查找抓到哪些数据；或是通过业务人员人工将种子抓取到的数据与客户提供的列表信息进行对比，查找抓取的数据未覆盖的数据并进行反馈，最终分析数据未能抓取解析成功的原因。然而，由开发人员排查爬虫平台通过一个种子能抓取并解析多少内容是实现起来较为困难，由业务人员对比客户提供的列表排查数据覆盖情况，更加繁琐，且存在客户反馈数据缺失的情况，容易疏漏。针对相关技术中难以获知通过爬虫种子是否能够抓取到目标信息的问题，目前尚未提出有效的解决方案。
技术实现思路
<...

【技术保护点】
1.一种网页信息爬取的处理方法，其特征在于，包括：/n获取目标网页的爬取结果，所述爬取结果包括：成功爬取的网页信息的链接和被过滤的网页信息的链接，所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示；/n根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。/n

【技术特征摘要】
1.一种网页信息爬取的处理方法，其特征在于，包括：
获取目标网页的爬取结果，所述爬取结果包括：成功爬取的网页信息的链接和被过滤的网页信息的链接，所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示；
根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取。

2.根据权利要求1所述的方法，其特征在于，在获取所述目标网页的爬取结果之前，所述方法还包括：
通过爬虫平台中的目标种子爬取目标网页中的网页信息，其中，所述爬虫平台中设置有多个过滤器，所述多个过滤器用于过滤网页信息的链接。

3.根据权利要求2所述的方法，其特征在于，所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括：所述成功爬取的网页信息的链接位于第一链接列表中，所述被过滤的网页信息的链接位于第二链接列表中，所述目标信息的链接至少为一条，根据所述爬取结果确定所述目标网页中的目标信息的链接是否被成功爬取包括：
判断所述目标信息的链接是否均位于所述第一链接列表内；
在所述目标信息的链接均位于所述第一链接列表内的情况下，确定所述目标信息的链接被成功爬取；和/或，
在所述目标信息的链接并非均位于所述第一链接列表的情况下，所述方法还包括：判断所述第二链接列表内是否存在所述目标信息的链接；
在所述第二链接列表内存在所述目标信息的链接的情况下，确定目标过滤器过滤了所述目标信息的链接。

4.根据权利要求1所述的方法，其特征在于，所述成功爬取的网页信息的链接和被过滤的网页信息的链接进行区别显示包括：
所述成功爬取的网页信息的链接和被过滤的网页信息的链接采用以下至少一种方式显示：采用不同颜色字体显示、采用大小不同字体显示、采用不同背景色进行显示和在不同显示区域进行显示。

5.根据权利要求3所...

【专利技术属性】
技术研发人员：陈发发，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人