页面异常检测方法、装置及电子设备制造方法及图纸

技术编号:30823811 阅读:19 留言:0更新日期:2021-11-18 12:13
本申请实施例公开了页面异常检测方法、装置及电子设备,所述方法包括:确定待检测的目标页面;通过对用户浏览所述目标页面的过程进行模拟,获取所述目标页面的加载及渲染结果;根据所述目标页面的加载及渲染结果确定目标图像;基于所述目标图像的图像特征,对所述目标图像中的文本内容是否存在目标类型的异常进行检测。通过本申请实施例,能够有效的实现对网页中的文本内容的异常检测。对网页中的文本内容的异常检测。对网页中的文本内容的异常检测。

【技术实现步骤摘要】
页面异常检测方法、装置及电子设备


[0001]本申请涉及页面检测
,特别是涉及页面异常检测方法、装置及电子设备。

技术介绍

[0002]国际化网站中能够支持多语言的切换展示。例如,跨境商品对象信息系统的网站,在不同国家的用户进行浏览时,可以允许用户进行语言选择,或者,还可以根据用户所在的地理位置等信息自动进行语言匹配,等等,以使得各个不同国家的用户都可以浏览到母语化的网站内容。
[0003]为了支持多语言切换展示,可以预先提供多语言文案库、多语言图片库等。在进行多语言切换展示的过程中,可以读取具体多语言文案库或者多语言图片库中的内容,组合成具体的网页内容并进行展示。
[0004]但是,不同语言之间在文本表达上存在很大差异,以至于同样含义的一句话,不同语言表达出来的样式、长度等都会有明显的不同。另外,具体的文案库等可能通过机器翻译的方式得到多种不同语言的语料,可能存在漏翻的情况,等等。以上情况的存在,都可能导致多语言切换的过程中,可能出现某些语言场景下,网页内容展示异常的情况,包括部分内容漏翻,部分文本内容被遮挡、截断、缩略等情况。尤其是一些小语言场景,漏翻(翻译时被遗漏)等各类异常的发生概率会更高。上述异常情况的存在会严重影响用户的浏览体验,甚至可能会造成用户的流失,等等。
[0005]因此,如何有效的实现对网页中的文本内容的异常检测,成为需要本领域技术人员解决的技术问题。

技术实现思路

[0006]本申请提供了页面异常检测方法、装置及电子设备,能够有效的实现对网页中的文本内容的异常检测。
[0007]本申请提供了如下方案:
[0008]一种页面异常检测方法,包括:
[0009]确定待检测的目标页面;
[0010]通过对用户浏览所述目标页面的过程进行模拟,获取所述目标页面的加载及渲染结果;
[0011]根据所述目标页面的加载及渲染结果确定目标图像;
[0012]基于所述目标图像的图像特征,对所述目标图像中的文本内容是否存在目标类型的异常进行检测。
[0013]其中,所述确定待检测的目标页面,包括:
[0014]接收用户输入的检测对象的网络资源定位标识信息,以及指定的至少一种目标语言;
[0015]将所述网络资源定位标识信息在所述目标语言场景下对应的页面确定为所述目
标页面。
[0016]其中,所述确定待检测的目标页面,包括:
[0017]接收用户输入的检测对象的网络资源定位标识信息,以及指定的检测深度N,N为正整数;
[0018]在所述检测深度N大于1时,将所述网络资源定位标识信息对应的页面确定为一级页面,并根据所述一级页面中包括的链接确定出至少一个n级页面,其中,n=2,3

N;
[0019]将所述一级页面以及n级页面确定所述待检测的目标页面。
[0020]其中,所述一级页面包括商品对象信息聚合页面,其中包括多个商品对象详情页面的链接;在N为2时,所述目标页面包括所述商品对象信息聚合页面以及所述多个商品对象详情页面。
[0021]其中,所述根据所述目标页面的加载及渲染结果确定目标图像,包括:
[0022]对所述目标页面的加载及渲染结果进行截图,将截图结果确定为所述目标图像。
[0023]其中,所述根据所述目标页面的加载及渲染结果确定目标图像,包括:
[0024]将所述目标页面中包含的图像类型的页面元素确定为所述目标图像。
[0025]其中,所述基于所述目标图像的图像特征,对所述目标图像中的文本内容是否存在目标类型的异常进行检测,包括:
[0026]从所述目标图像中识别出至少一个文本区块,所述文本区块中包括文本内容;
[0027]以所述文本区块为单位,对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测。
[0028]其中,所述从所述目标图像中识别出至少一个文本区块,包括:
[0029]将所述目标图像中同一方向上连续性排列的多个文本字符确定为一个文本单元;
[0030]确定所述文本单元的外接矩形框,将所述外接矩形框内的区域确定为一个文本区块。
[0031]其中,所述目标类型的异常包括:文本内容被遮挡;
[0032]所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:
[0033]将所述文本区块输入到第一算法模型中进行预测,根据所述第一算法模型输出的预测结果,确定所述文本区块中的文本内容是否存在被遮挡的异常。
[0034]其中,所述目标类型的异常包括:文本内容被缩略;
[0035]所述方法还包括:
[0036]对所述文本区块所关联的资源类型进行识别;
[0037]将非可交互类的资源对应的文本区块确定为需要对缩略问题进行检测的目标文本区块;
[0038]所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:
[0039]通过将所述目标文本区块输入到第二算法模型中进行缩略标记的识别,并根据识别结果确定所述目标文本区块中的文本内容是否被缩略。
[0040]其中,所述目标类型的异常包括:文本内容被截断;
[0041]所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包
括:
[0042]将所述文本区块输入到第三算法模型中进行预测,根据所述第三算法模型输出的预测结果,确定所述文本区块中的文本内容是否存在被截断的异常。
[0043]其中,还包括:
[0044]对所述文本区块中的文本内容进行垂直投影,并对投影结果的连通性进行分析;
[0045]所述确定所述文本区块中的文本内容是否存在被截断的异常,包括:
[0046]根据所述第三算法模型输出的预测结果,以及所述连通性分析结果,确定所述文本区块中的文本内容是否存在被截断的异常。
[0047]其中,所述目标类型的异常包括:文本内容在翻译过程中被遗漏的异常;
[0048]所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:
[0049]通过将所述文本区块输入到第四算法模型中,对所述文本区块中的文本内容进行语言种类识别;
[0050]通过判断语言种类识别结果与所述目标页面关联的目标语言是否相同,判断对应的文本区块中的文本内容是否存在在翻译过程中被遗漏的异常。
[0051]其中,还包括:
[0052]通过异常检测结果界面,对所述目标页面的异常检测结果进行展示;
[0053]其中,在对所述异常检测结果进行展示时,展示所述目标页面的截图,并根据存在异常的文本内容在所述目标页面中的坐标信息,在所述截图中提供关于所述存在异常的文本内容的标记信息。
[0054]其中,所述异常检测结果界面中还包括用户操作区域,所述用户操作区域用于对文本内容所存在的异常类型进行展示,并提供对对应的异常进行操作的操作选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面异常检测方法,其特征在于,包括:确定待检测的目标页面;通过对用户浏览所述目标页面的过程进行模拟,获取所述目标页面的加载及渲染结果;根据所述目标页面的加载及渲染结果确定目标图像;基于所述目标图像的图像特征,对所述目标图像中的文本内容是否存在目标类型的异常进行检测。2.根据权利要求1所述的方法,其特征在于,所述确定待检测的目标页面,包括:接收用户输入的检测对象的网络资源定位标识信息,以及指定的至少一种目标语言;将所述网络资源定位标识信息在所述目标语言场景下对应的页面确定为所述目标页面。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标页面的加载及渲染结果确定目标图像,包括:对所述目标页面的加载及渲染结果进行截图,将截图结果确定为所述目标图像。4.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像的图像特征,对所述目标图像中的文本内容是否存在目标类型的异常进行检测,包括:从所述目标图像中识别出至少一个文本区块,所述文本区块中包括文本内容;以所述文本区块为单位,对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测。5.根据权利要求4所述的方法,其特征在于,所述目标类型的异常包括:文本内容被遮挡;所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:将所述文本区块输入到第一算法模型中进行预测,根据所述第一算法模型输出的预测结果,确定所述文本区块中的文本内容是否存在被遮挡的异常。6.根据权利要求4所述的方法,其特征在于,所述目标类型的异常包括:文本内容被缩略;所述方法还包括:对所述文本区块所关联的资源类型进行识别;将非可交互类的资源对应的文本区块确定为需要对缩略问题进行检测的目标文本区块;所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:通过将所述目标文本区块输入到第二算法模型中进行缩略标记的识别,并根据识别结果确定所述目标文本区块中的文本内容是否被缩略。7.根据权利要求4所述的方法,其特征在于,所述目标类型的异常包括:文本内容被截断;所述对所述文本区块中包含的文本内容是否存在目标类型的异常进行检测,包括:将所述文本区块输入到第三算法模型中进行预测,根据所述第三算法模型输出的预测
结...

【专利技术属性】
技术研发人员:陈砺王鹏飞
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1