爬虫异常预警方法、装置、存储介质及服务器制造方法及图纸

技术编号:40132108 阅读:20 留言:0更新日期:2024-01-23 22:18
本申请公开了一种爬虫异常预警方法、装置、存储介质及服务器,该方法应用于服务器中,包括:在执行目标爬虫任务的爬虫执行命令之前,截取目标爬虫任务的爬虫执行命令,并确定爬虫执行命令所对应的待爬取网址信息,对待爬取网址信息进行请求,以对待爬取网址信息进行验证,若验证不成功,则发送相应的异常预警信息。本申请在执行爬虫执行命令的爬虫脚本之前,对待爬取网址信息进行预处理,以对待爬取网址信息进行验证,识别可能发生的爬取异常情况,对可能发生的爬取异常情况进行异常预警,以使得相关人工第一时间了解可能发送的爬取异常,提高爬虫出现异常的处理效率。

【技术实现步骤摘要】

本申请涉及计算机网络,尤其涉及一种爬虫异常预警方法、装置、存储介质及服务器


技术介绍

1、通过爬虫技术,对用户发布在网络上的公开信息进行爬取收集,以此来获悉用户发布的公开信息,例如用户对于产品的整体评价态势。但是,由于用户发布的信息是杂乱的,发布的网站也是各异。因此,在收集信息的时候,常常会出现网站爬取异常的情况,导致爬虫的爬取失败。这个时候,由于开发人员并不是一直关注着爬取任务的状态,如果出现爬取失败,有可能会被忽略,或者出现无法从最终的数据准确识别是否发生过爬取异常的情况。


技术实现思路

1、本申请实施例提供一种爬虫异常预警方法、装置、存储介质及服务器,能在执行爬虫执行命令的爬虫脚本之前,识别可能发生的爬取异常情况,提高爬虫出现异常的处理效率。

2、本申请实施例提供了一种爬虫异常预警方法,应用于服务器中,包括:

3、在执行目标爬虫任务的爬虫执行命令之前,截取所述爬虫执行命令,并确定所述爬虫执行命令所对应的待爬取网址信息;

4、对所述待爬取网址信息进行请求,验证所述服务本文档来自技高网...

【技术保护点】

1.一种爬虫异常预警方法,应用于服务器中,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述验证所述服务器至所述待爬取网址信息对应的设备之间的路由环境是否畅通、所述待爬取网址信息的HTTP状态码是否为正常状态码、所述请求发起到获取所述正常状态码的耗时时间是否超过预设耗时时间中的至少一个的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述检测所述目标数据是否满足所述数据格式的步骤,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述爬虫执行命令所...

【技术特征摘要】

1.一种爬虫异常预警方法,应用于服务器中,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述验证所述服务器至所述待爬取网址信息对应的设备之间的路由环境是否畅通、所述待爬取网址信息的http状态码是否为正常状态码、所述请求发起到获取所述正常状态码的耗时时间是否超过预设耗时时间中的至少一个的步骤,包括:

3.根据权利要求1所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述检测所述目标数据是否满足所述数据格式的步骤,包括:

5.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述爬虫执行命令所对应的待爬取网址信息的步骤,包括:

6.根据...

【专利技术属性】
技术研发人员:陈俊旭
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1