一种网页识别方法、装置及电子设备和存储介质制造方法及图纸

技术编号:31582318 阅读:15 留言:0更新日期:2021-12-25 11:26
本申请公开了一种网页识别方法、装置及一种电子设备和计算机可读存储介质,该方法包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。提高了页面识别的速度和准确度。提高了页面识别的速度和准确度。

【技术实现步骤摘要】
一种网页识别方法、装置及电子设备和存储介质


[0001]本申请涉及计算机
,更具体地说,涉及一种网页识别方法、装置及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]在web账号审计中,网页类型的识别十分重要。在相关技术中,根据HTML文本采用传统机器学习或者NLP(自然语言处理技术)识别,传统的机器学习方法包括但不局限于Han和Textcnn模型,NLP技术主要包含基于Bert的文本分类。但是,上述方案在面对大量的url网站时,处理的速度较慢或者准确率不好,无法满足实际的应用需求。
[0003]因此,如何提高页面识别的速度和准确度是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]本申请的目的在于提供一种网页识别方法、装置及一种电子设备和一种计算机可读存储介质,提高了页面识别的速度和准确度。
[0005]为实现上述目的,本申请提供了一种网页识别方法,包括:
[0006]确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
[0007]获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
[0008]若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
[0009]其中,所述获取目标网页的HTML文本内容,包括:
[0010]根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容。
[0011]其中,若所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字,则所述HTML文本内容命中所述目标匹配规则。
[0012]其中,若所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字,则所述HTML文本内容命中所述目标匹配规则;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
[0013]其中,所述目标网页类型包括登录类型。
[0014]为实现上述目的,本申请提供了一种网页识别装置,包括:
[0015]确定模块,用于确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
[0016]匹配模块,用于获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;
[0017]判定模块,用于当所述HTML文本内容命中所述目标匹配规则时,判定所述目标网页符合所述目标网页类型。
[0018]其中,所述判定模块具体为当所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字时,判定所述目标网页符合所述目标网页类型的模块。
[0019]其中,所述判定模块具体为当所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字时,判定所述目标网页符合所述目标网页类型的模块;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。
[0020]为实现上述目的,本申请提供了一种电子设备,包括:
[0021]存储器,用于存储计算机程序;
[0022]处理器,用于执行所述计算机程序时实现如上述网页识别方法的步骤。
[0023]为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述网页识别方法的步骤。
[0024]通过以上方案可知,本申请提供的一种网页识别方法,包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。
[0025]本申请提供的网页识别方法,针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。由此可见,本申请提供的网页识别方法,使用匹配规则判断目标网页是否符合目标网页类型,提高了页面识别的速度和准确度。本申请还公开了一种网页识别装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
[0026]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
[0027]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0028]图1为根据一示例性实施例示出的一种网页识别方法的流程图;
[0029]图2为根据一示例性实施例示出的一种网页识别装置的结构图;
[0030]图3为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
[0031]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完
整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0032]本申请实施例公开了一种网页识别方法,提高了页面识别的速度和准确度。
[0033]参见图1,根据一示例性实施例示出的一种网页识别方法的流程图,如图1所示,包括:
[0034]S101:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;
[0035]本实施例的目的为识别目标网页是否符合目标网页类型。具体的,本实施例针对不同的网页类型设计了不同的匹配规则,若目标网页的HTML文本内容命中某一条目标网页类型对应的目标匹配规则,则判定目标网页符合目标网页类型。
[0036]在本步骤中,首先确定需要识别的目标网页类型,可以包括登录类型等,在此不进行具体限定。其次确定目标网页类型对应的目标匹配规则,针对不同网页类型的不同功能在HTML文本内容中的不同表现进行对应匹配规则的设计。HTML(超文本标记语言)是一种包括一系列标签的标记语言,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。
[0037]S102:获取目标网页的HTML文本内容,并利用所述目标匹配规则对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页识别方法,其特征在于,包括:确定目标网页类型和所述目标网页类型对应的目标匹配规则;其中,所述目标匹配规则为基于关键字进行匹配的规则;获取目标网页的HTML文本内容,并利用所述目标匹配规则对所述HTML文本内容进行匹配;若所述HTML文本内容命中所述目标匹配规则,则判定所述目标网页符合所述目标网页类型。2.根据权利要求1所述登录网页识别方法,其特征在于,所述获取目标网页的HTML文本内容,包括:根据所述目标网页的地址获取HTML文件,并对所述HTML文件进行文本处理得到HTML文本内容。3.根据权利要求1所述登录网页识别方法,其特征在于,若所述HTML文本内容包含与所述目标网页类型的功能相关的目标关键字,则所述HTML文本内容命中所述目标匹配规则。4.根据权利要求1所述登录网页识别方法,其特征在于,若所述HTML文本内容包括预设标签,且所述预设标签对应的内容包含预设属性,且所述预设属性为目标关键字,则所述HTML文本内容命中所述目标匹配规则;其中,所述目标关键字为与所述目标网页类型的功能相关的关键字。5.根据权利要求1所述登录网页识别方法,其特征在于,所述目标网页类型包括登录类型。6.一种网页识别装置,其特征在于,包括:确定模块,用于确定目标...

【专利技术属性】
技术研发人员:王晓波位凯志
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1