【技术实现步骤摘要】
爬虫任务报错的处理方法及装置
[0001]本专利技术涉及爬虫
,尤其涉及一种爬虫任务报错的处理方法及装置。
技术介绍
[0002]随着互联网数据的井喷式增长,数据的获取方式也随之变化。其中,爬虫作为一种计算机自动化爬取网页内容信息的手段,也逐步普及。而随着前端技术的发展,以及分布式服务的普及,网页的加载方式和内容的呈现也越发多样化和复杂化。这就使得在利用爬虫爬取网页内容的过程中,极易因网页打开错误或网络等问题出现爬取失败的情况。
[0003]目前,当爬虫执行了爬取任务后,在爬取失败时会反馈报错信息,一般情况下,对于爬虫任务报错的处理方式往往是基于人工方式进行的。也就是说,当检测到爬虫任务报错后,在处理过程中需要相关工作人员人工判断报错的任务是否确实为爬虫无法爬取的任务,还是仅仅是因为爬取过程中网页未能正确打开,或者是爬取时存在网络因素的干扰。然而,在实际应用中,现有的爬虫任务报错的处理方式过于依赖人工操作,尤其是对于一部分可以通过重新打开网站刷新就可以解决的报错而言,现有的处理方式通过人工操作会带来人工成本过高 ...
【技术保护点】
【技术特征摘要】
1.一种爬虫任务报错的处理方法,其特征在于,包括:在获取到报错任务后,将所述报错任务按照任务参数进行分组,得到任务分组,其中,每个所述任务分组中至少包括一个所述报错任务,所述报错任务为爬虫执行爬取任务后反馈爬取失败的任务;通过爬虫按照所述任务分组执行所述报错任务,并得到每个任务分组的分组任务结果;根据所述分组任务结果,判断所述报错任务是否执行成功;若不成功,则将所述报错任务确定为异常任务并输出。2.根据权利要求1所述的方法,其特征在于,所述在获取到报错任务后,将所述报错任务按照任务参数进行分组,得到任务分组包括:获取所述报错任务的任务参数,其中,所述任务参数至少包括统一资源定位符信息、爬取页面类型信息、爬取深度信息及错误信息中的一种;根据所述任务参数,将多个所述报错任务分配为多个所述任务分组,其中,每个所述任务分组中包含有具有相同所述任务参数的至少一个所述报错任务。3.根据权利要求2所述的方法,其特征在于,在所述通过爬虫按照所述任务分组执行所述报错任务,并得到每个任务分组的分组任务结果之前,所述方法还包括:判断每个所述任务分组中的任务数量是否达到任务阈值;若未达到,则对所述任务分组中的所述报错任务执行复制操作,以便所述任务数量达到所述任务阈值。4.根据权利要求3所述的方法,其特征在于,所述通过爬虫按照所述任务分组执行所述报错任务,并得到每个任务分组的分组任务结果,包括:通过所述爬虫按照所述任务分组执行每个所述报错任务,并得到每个所述报错任务对应的执行结果;统计所述任务分组中全部所述报错任务的执行结果,得到所述分组任务结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述分组任务结果,判断所述报错任务是否执行成功包括:判断所述分组任务结果对应的多个所述执行结果中,是否存在至少一个所述执行结果为执行成功;若存在,则确定所述分组任务对应的所述报错任务执行成功;若不存在,则确定所述分组任务对应的所述报错任务执行失败;所述若不成功,则将所述报错任务确定为异常任务并输出,包括:若所述分组任务对应的所述报错任务执行失败,则将所述报错任务确定为异常任务并输出。6.根据权利要求1
‑
5中任一项所述...
【专利技术属性】
技术研发人员:满悦,
申请(专利权)人:苏州国双软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。