网页错误信息处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:17304473 阅读:36 留言:0更新日期:2018-02-18 22:32
本发明专利技术涉及一种网页错误信息处理方法、装置、计算机设备和存储介质,该方法包括爬取网页中的错误信息;当标准库中不存在与错误信息相匹配的提示信息时,则将爬取的错误信息与高层滤镜库中的字符匹配得到第一匹配结果,与基础滤镜库中的字符匹配得到第二匹配结果;当第一匹配结果未完全包含第二匹配结果时,将第一匹配结果和第二匹配结果进行拼接得到目标匹配结果;根据目标匹配结果,获取爬取的错误信息的提示信息;将提示信息返回至网页。上述网页错误信息处理方法、装置、计算机设备和存储介质,当网页中存在新发错误信息时,通过高层滤镜库和基础滤镜库来确定错误信息的目标匹配结果,不需要采取线下修复,测试研发版本这一流程,节约时间。

Method, device, computer equipment and storage medium for web error information processing

The invention relates to a \false information processing method, device, computer device and storage medium, the method including crawling error information in web pages; when message matching error information does not exist in the standard library, it will climb from the error information in the library and high filter character matching to get the first match the results, based in the library and the filter character matching second matching results; when the first matching result is not fully contained second matching results, the first matching results and second matching results were spliced matching results; according to the matching results, obtain the prompt information crawling error message will prompt the information back to the web. The \error information processing method, device, computer device and storage medium, when the new information website, through high-level library and library based filter filters to determine the error information matching results, do not need to take the line repair, test development version of this process, saving time.

【技术实现步骤摘要】
网页错误信息处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机领域,特别是涉及一种网页错误信息处理方法、装置、计算机设备和存储介质。
技术介绍
专用爬虫解析系统,为对要爬取的页面结构有依赖,页面结构的改变或页面的替换都会导致解析或爬取失败的爬虫解析系统。对于专用爬虫解析系统,当线上出现网站改版或新型账户类型时,会出现一些新发未知页面、新发未知错误,从而会导致网络爬取系统的可用性降低且影响用户体验。传统上针对这些新发问题的处理,多采取线下修复,测试研发版本这一流程,这样耗时长。
技术实现思路
基于此,有必要针对网页新发错误信息的线下修复处理耗时长的问题,提供一种网页错误信息处理方法、装置、计算机设备和存储介质。一种网页错误信息处理方法,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。在其中一个实施例中,所述根据所述目标匹配结果,获取爬取的所述错误信息的提示信息的步骤,包括:接收针对所述目标匹配结果的调整指令;当所述调整指令表示确认时,则根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;当所述调整指令表示调整时,则根据所述调整指令对所述目标匹配结果进行调整,并根据调整后的所述目标匹配结果,获取爬取的所述错误信息的提示信息。在其中一个实施例中,所述方法还包括:将根据所述目标匹配结果获取的提示信息以及相应的所述错误信息关联存储至补充库;所述当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤,包括:当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与所述补充库中已存储的错误信息进行匹配;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配成功时,则获取匹配成功的已存储的错误信息相对应的提示信息;将所述提示信息返回至所述网页;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配失败时,则继续将所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤。在其中一个实施例中,所述方法还包括:当所述第一匹配结果完全包含所述第二匹配结果时,则将所述第一匹配结果作为所述目标匹配结果。在其中一个实施例中,所述方法还包括:当所述第一匹配结果中不存在字符时,则将所述第二匹配结果作为所述目标匹配结果。在其中一个实施例中,所述将所述第一匹配结果与所述第二匹配结果进行比较的步骤,包括:当所述第一匹配结果中存在字符时,则通过所述第二匹配结果中的每一字符去匹配所述第一匹配结果中的每一字符;当所述第二匹配结果中的每一字符均在所述第一匹配结果中存在相匹配的字符时,则返回所述第一匹配结果完全包含所述第二匹配结果的结果;当所述第二匹配结果中存在至少一个字符在所述第一匹配结果中不存在相匹配的字符时,则返回所述第一匹配结果未完全包含所述第二匹配结果的结果。一种网页错误信息处理装置,所述装置包括:爬取模块,用于爬取网页中的错误信息;匹配模块,用于当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;比较模块,用于将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;获取模块,用于根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;返回模块,用于将所述提示信息返回至所述网页。在其中一个实施例中,所述获取模块包括:接收单元,用于接收针对所述目标匹配结果的调整指令;处理单元,用于当所述调整指令表示确认时,则根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;当所述调整指令表示调整时,则根据所述调整指令对所述目标匹配结果进行调整,并根据调整后的所述目标匹配结果,获取爬取的所述错误信息的提示信息。一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。一种计算机可读存储介质,其上存储有计算机程序该程序被处理器执行时实现以下步骤:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。上述网页错误信息处理方法、装置、计算机设备和存储介质,当网页中存在错误信息时,在标准库中又没有与该错误信息相对应的提示信息时,即该错误信息为新发错误信息时,则通过高层滤镜库中的字符和基础滤镜库中的字符对该错误信息进行匹配,以确定该错误信息的目标匹配结果,从而可以得到针对该错误信息的提示信息,将该提示信息返回至网页进行显示后,用户可以根据该提示信息进行相应的修改,以继续进行网页操作,其中通过高层滤镜库来确定错误信息的目标匹配结果可以提高匹配的准确度,通过基础滤镜库来确定错误信息的目标匹配结果可以提高专用爬虫解析系统的普遍适用性,从而使得当网页中存在新发错误信息时,可以通过高层滤镜库和基础滤镜库来确定错误信息的目标匹配结果,不需要采取线下修复,测试研发版本这一流程,节约时间。附图说明图1为一实施例中网页错误信息处理系统的结构示意图;图2为一实施例中网页错误信息处理方法的流程图;图3为图2所示实施例的步骤S212的流程图;图4为一实施例中目标匹配结果的示意图;图5为图2所示实施例中步骤S204的流程图;图6为图2所示实施例中的步骤S208的流程图;图7为一实施例中的网页错误信息处理装置的结构示意图;图8为一实施例中的专用爬虫解析终端的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本发本文档来自技高网...
网页错误信息处理方法、装置、计算机设备和存储介质

【技术保护点】
一种网页错误信息处理方法,其特征在于,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。

【技术特征摘要】
1.一种网页错误信息处理方法,其特征在于,所述方法包括:爬取网页中的错误信息;当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果;将爬取的所述错误信息与基础滤镜库中的字符进行匹配以得到第二匹配结果;将所述第一匹配结果与所述第二匹配结果进行比较;当所述第一匹配结果未完全包含所述第二匹配结果时,则将第一匹配结果和所述第二匹配结果进行拼接以获得目标匹配结果;根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;将所述提示信息返回至所述网页。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标匹配结果,获取爬取的所述错误信息的提示信息的步骤,包括:接收针对所述目标匹配结果的调整指令;当所述调整指令表示确认时,则根据所述目标匹配结果,获取爬取的所述错误信息的提示信息;当所述调整指令表示调整时,则根据所述调整指令对所述目标匹配结果进行调整,并根据调整后的所述目标匹配结果,获取爬取的所述错误信息的提示信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将根据所述目标匹配结果获取的提示信息以及相应的所述错误信息关联存储至补充库;所述当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤,包括:当标准库中不存在与所述错误信息相匹配的提示信息时,则将爬取的所述错误信息与所述补充库中已存储的错误信息进行匹配;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配成功时,则获取匹配成功的已存储的错误信息相对应的提示信息;将所述提示信息返回至所述网页;当爬取的所述错误信息与所述补充库中已存储的错误信息匹配失败时,则继续将所述错误信息与高层滤镜库中的字符进行匹配以得到第一匹配结果的步骤。4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:当所述第一匹配结果完全包含所述第二匹配结果时,则将所述第一匹配结果作为所述目标匹配结果。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:当所述第一匹配结果中不存在字符时,则将所述第二匹配结果作为所述目标匹配结果。6.根据权利要求4所述的方法,其特征在于,所述将所述第一匹配结果与所述第二匹配结果进行比较的步骤,包括:当所述第一匹配结果中存在字符时,则通过所述第二匹配结果中的每一字符去匹配所述第一匹配结果中的每一字符;当所述第二匹配结果中的每一字符均在所述第一匹配结果中存在相匹配的字符时,则返回所述第一匹配结果完全包含所述第二匹配结果的结果;当所述第二匹配结果...

【专利技术属性】
技术研发人员:李武奇
申请(专利权)人:上海壹账通金融科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1