The invention relates to a \false information processing method, device, computer device and storage medium, the method including crawling error information in web pages; when message matching error information does not exist in the standard library, it will climb from the error information in the library and high filter character matching to get the first match the results, based in the library and the filter character matching second matching results; when the first matching result is not fully contained second matching results, the first matching results and second matching results were spliced matching results; according to the matching results, obtain the prompt information crawling error message will prompt the information back to the web. The \error information processing method, device, computer device and storage medium, when the new information website, through high-level library and library based filter filters to determine the error information matching results, do not need to take the line repair, test development version of this process, saving time.
【技术实现步骤摘要】
网页错误信息处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机领域,特别是涉及一种网页错误信息处理方法、装置、计算机设备和存储介质。
技术介绍
专用爬虫解析系统,为对要爬取的页面结构有依赖,页面结构的改变或页面的替换都会导致解析或爬取失败的爬虫解析系统。对于专用爬虫解析系统,当线上出现网站改版或新型账户类型时,会出现一些新发未知页面、新发未知错误,从而会导致网络爬取系统的可用性降低且影响用户体验。传统上针对这些新发问题的处理,多采取线下修复,测试研发版本这一流程,这样耗时长。
技术实现思路
基于此,有必要针对网页新发错误信息的线下修复处理耗时长的问题,提供一种网页错误信息处理方法、装置、计算机设备和存储介质。一种网页错误信息处理方法,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。在其中一个实施例中,所述根据所述目标匹配结果,获取爬取的所述错误信息的提示信息的步骤,包括:接收针对所述目标匹配结果的调整指令;当所述调整指令表示确认时,则根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;当所述调整指令表示调整时,则根据所述调整指令对所述目标 ...
【技术保护点】
一种网页错误信息处理方法,其特征在于,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。
【技术特征摘要】
1.一种网页错误信息处理方法,其特征在于,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标匹配结果,获取爬取的所述错误信息的提示信息的步骤,包括:接收针对所述目标匹配结果的调整指令;当所述调整指令表示确认时,则根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;当所述调整指令表示调整时,则根据所述调整指令对所述目标匹配结果进行调整,并根据调整后的所述目标匹配结果,获取爬取的所述错误信息的提示信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将根据所述目标匹配结果获取的提示信息以及相应的所述错误信息关联存储至补充库;所述当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤,包括:当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与所述补充库中已存储的错误信息进行匹配;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配成功时,则获取匹配成功的已存储的错误信息相对应的提示信息;将所述提示信息返回至所述网页;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配失败时,则继续将所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:当所述第一匹配结果完全包含所述第二匹配结果时,则将所述第一匹配结果作为所述目标匹配结果。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:当所述第一匹配结果中不存在字符时,则将所述第二匹配结果作为所述目标匹配结果。6.根据权利要求4所述的方法,其特征在于,所述将所述第一匹配结果与所述第二匹配结果进行比较的步骤,包括:当所述第一匹配结果中存在字符时,则通过所述第二匹配结果中的每一字符去匹配所述第一匹配结果中的每一字符;当所述第二匹配结果中的每一字符均在所述第一匹配结果中存在相匹配的字符时,则返回所述第一匹配结果完全包含所述第二匹配结果的结果;当所述第二匹配结果...
【专利技术属性】
技术研发人员:李武奇,
申请(专利权)人:上海壹账通金融科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。