网页识别的处理方法、装置、系统及电子设备制造方法及图纸

技术编号:24035901 阅读:22 留言:0更新日期:2020-05-07 01:53
本发明专利技术实施例提供了本发明专利技术实施例的网页识别的处理方法、装置、系统及电子设备,其中,方法包括:获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;使用该错误案例对网页识别模型进行训练,以更新网页识别模型。本发明专利技术实施例利用了报警处理平台的处理结果来辅助获取错误案例,提高了训练数据的丰富性和有效性,从而能够不断更新网页识别模型,以进一步提高模型对网页错误识别的准确率。

Processing method, device, system and electronic equipment of web page recognition

【技术实现步骤摘要】
网页识别的处理方法、装置、系统及电子设备
本申请涉及一种网页识别的处理方法、装置、系统及电子设备,属于计算机

技术介绍
现有技术中,对于网页页面是否出现错误的测试以及日常监控,会采用机器学习模型来辅助处理。例如,采用以CNN(卷积神经网络)为代表的深度学习算法,此类算法基于特征值的比较为基础。这类算法比较智能,能够总结出特征值进行对比,但是存在的问题是需要的训练数据较大,在训练数据不足时容易误判,因此,其准确度还有待提升。
技术实现思路
本专利技术实施例提供一种网页识别的处理方法、装置、系统及电子设备,以提高网页识别模型的准确率。为了实现上述目的,本专利技术实施例提供了一种网页识别的处理方法,包括:获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。本专利技术实施例还提供了一种网页识别的处理装置,包括:网页识别控制模块,用于获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;错误案例生成模块,用于获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;模型训练模块,用于使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。本专利技术实施例还提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于如下处理:获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。本专利技术实施例还提供了一种网页识别的处理系统,包括:网页错误识别装置,用于对网页进行图片抓取,生成网页图片,并使用网页识别模型对网页图片进行识别,以及在该识别结果为网页错误的情况下,向报警处理平台网页错误报警;报警处理平台,用于对网页错误报警进行处理,如果在处理的过程中,判定该网页错误报警为误报,则将该网页错误报警对应的网页图片作为错误案例进行存储;模型训练装置,用于从报警处理平台获取错误案例,并使用该错误案例对所述网页识别模型进行训练。本专利技术实施例还提供了一种网页识别的处理方法,其中,包括:对网页进行图片抓取,生成网页图片;使用网页识别模型对网页图片进行识别;在该识别结果为网页错误的情况下,向报警处理平台网页错误报警;定期获取使用错误案例训练后的新的网页识别模型,更新已有的网页识别模型,所述错误案例为被报警处理平台识别为误报的网页图片。本专利技术实施例还提供了一种网页识别的处理方法,其中,包括:从报警处理平台获取错误案例,所述错误案例为被报警处理平台识别为误报的网页图片;定期用获取到的错误案例,对网页识别模型进行训练,生成新的网页识别模型。本专利技术实施例还提供了一种网页识别的处理装置,包括:网页抓取模块,用于对网页进行图片抓取,生成网页图片;网页识别模块,用于使用网页识别模型对网页图片进行识别,并在该识别结果为网页错误的情况下,向报警处理平台网页错误报警;模型更新模块,用于定期获取使用错误案例训练后的新的网页识别模型,更新已有的网页识别模型,所述错误案例为被报警处理平台识别为误报的网页图片。本专利技术实施例还提供了一种网页识别的处理装置,包括:错误案例获取模块,用于从报警处理平台获取错误案例,所述错误案例为被报警处理平台识别为误报的网页图片;模型更新训练模块,用于定期用获取到的错误案例,对网页识别模型进行训练,生成新的网页识别模型。本专利技术实施例还提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于如下处理:对网页进行图片抓取,生成网页图片;使用网页识别模型对网页图片进行识别;在该识别结果为网页错误的情况下,向报警处理平台网页错误报警;定期获取使用错误案例训练后的新的网页识别模型,更新已有的网页识别模型,所述错误案例为被报警处理平台识别为误报的网页图片。本专利技术实施例还提供了一种电子设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于执行所述程序,以用于如下处理:从报警处理平台获取错误案例,所述错误案例为被报警处理平台识别为误报的网页图片;定期用获取到的错误案例,对网页识别模型进行训练,生成新的网页识别模型。本专利技术实施例的网页识别的处理方法、装置、系统及电子设备,利用了报警处理平台的处理结果来辅助获取错误案例,提高了训练数据的丰富性和有效性,从而能够不断更新网页识别模型,以进一步提高模型对网页错误识别的准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明图1为本专利技术实施例的网页识别的处理技术的应用场景示意图;图2为本专利技术实施例的网页识别的处理方法的流程示意图;图3为本专利技术实施例的网页识别的处理装置的结构示意图;图4为本专利技术实施例的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,其为本专利技术实施例的网页识别的处理技术的应用场景示意图。在批量网页测试以及日常网页运行状况的监控中,会引入机器学习模型来对网页是否正常进行识别,在本专利技术实施例中,称这种机器学习模型为网页识别模型。该网页识别模型的输入为网页图片,输出为针对该网页图片的识别结果,具体可以为网页错误或者网页正常的分类结果。为了让网页识别模型具有识别能力,需要使用大量的训练数据来进行训练。当训练数据不足时,很可能会存在识别准确率低下的问题,并且,由于网页错误也是层出不穷,使用已有训练数据训练处的模型,不一定会适应新的网页变化。针对这种情况,本专利技术实施例充分利用网站的报警处理平台来搜集一些错误案例(badcase)本文档来自技高网...

【技术保护点】
1.一种网页识别的处理方法,包括:/n获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;/n获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;/n使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。/n

【技术特征摘要】
1.一种网页识别的处理方法,包括:
获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;
获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;
使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。


2.根据权利要求1所述的方法,其中,所述获取报警处理平台针对该网页错误报警的处理结果,包括:
监控所述报警处理平台针对所述网页错误报警的处理行为,如果监控到选择忽略该网页错误报警的处理行为或者监控到将该网页图片标记为正常网页的处理行为,则确定为误报处理。


3.根据权利要求1所述的方法,其中,所述获取网页识别模型对网页图片进行识别的识别结果,包括:
运行网页测试脚本,抓取网页图片;
调用网页识别模型,对抓取的网页图片进行识别,生成识别结果。


4.根据权利要求1所述的方法,其中,所述获取网页识别模型对网页图片进行识别的识别结果,包括:
获取舆情监控系统上报的网页图片;
调用网页识别模型,对抓取的网页图片进行识别,生成识别结果。


5.根据权利要求1所述的方法,其中,使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型包括:
以预设的时间间隔检测是否收到新的错误案例,如果检测到一个或多个新的错误案例,则使用该一个或多个新的错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。


6.根据权利要求1所述的方法,其中,所述获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警包括:
运行网页测试脚本,生成多个网页,并对各个网页抓取网页图片;
调用网页识别模型,对抓取的多个网页图片进行识别,生成识别结果;
如果识别结果为网页错误的网页图片数量和/或比率超过预设的阈值,则将被识别为网页错误的网页图片发送给报警处理平台,并触发网页错误报警。


7.一种网页识别的处理装置,包括:
网页识别控制模块,用于获取网页识别模型对网页图片进行识别的识别结果,如果该识别结果为网页错误,则将该网页图片发送给报警处理平台,并触发网页错误报警;
错误案例生成模块,用于获取报警处理平台针对该网页错误报警的处理结果,如果处理结果为将该网页错误报警作为误报处理,则将该网页图片作为错误案例进行保存;
模型训练模块,用于使用该错误案例对所述网页识别模型进行训练,以更新所述网页识别模型。


8.根据权利要求7所述的装置,其中,所述获取报警处理平台针对该网页错误报警的处理结果,包括:
监控所述报警处理平台针对所述网页错误报警的处理行为,如果监控到选择忽略该网页错误报警的处理行为或者监控到将该网页图片标记为正常网页的处理行为,则确定为误报处理。


9.一种电子设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于执行所述程序,以用于如下处理:
获取网页...

【专利技术属性】
技术研发人员:杨加枫赵阳胡志刚曹浪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1