网页登录实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33711516 阅读:11 留言:0更新日期:2022-06-06 08:45
本申请公开了一种网页登录实体识别方法、装置、电子设备及存储介质。该方法首先通过正则匹配法获取候选登录网页数据;将候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;基于候选网页标签的关键词及候选网页标签之间的距离构建图数据;将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表,可以看出,本申请对每个节点表征时不仅参考自身节点信息同时考虑了邻居节点信息,更加充分利用网页结构信息来决策不同网页标签所属的登录实体类别,无需对大量规则一一校验,具有检测速度快,精度高,成本低等特点。特点。特点。

【技术实现步骤摘要】
网页登录实体识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据识别领域,特别涉及一种网页登录实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]传统的基于网页数据登录实体识别方法主要有基于规则的方法和基于传统机器学习的方法,它们都需要对渲染后的网页数据,针对不同的登录实体的特点,相对独立的从特定类型的网页标签及包含特定关键词的网页标签中,提取登录实体识别中依赖的多处关键位置信息,然后根据不同的登录实体设计各种规则、特征,最后判断某种登录实体的关键特征是否存在于信息中,并最终返回识别的结果。
[0003]因此,随着现在登录方式不断更新以及新型登录类型不断增加,传统网站识别缺点日渐突出。一方面,对于基于规则的方法,登录实体识别规则难以维护,需要随着网页登录方式的变动不断更新,极其浪费人力资源成本,而且还可能存在遗漏、错写规则等问题,识别效果日渐衰退。另一方面,传统建模方法缺乏对登录入口整体信息的认识,无法充分利用网页结构信息来关联多个登录实体的识别,随着网络安全意识的提升,登录实体的有效特征越来越少,识别难度越来越大,使得基于传统方法的登录实体识别的效果越来越差。

技术实现思路

[0004]基于此,本申请实施例提供了一种网页登录实体识别方法、装置、电子设备及存储介质,相比于现有技术提高了登录实体识别的识别效果。
[0005]第一方面,提供了一种网页登录实体识别方法,该方法包括:
[0006]通过正则匹配法获取候选登录网页数据,所述候选登录网页数据为可能包含登录功能的网页数据;
[0007]将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;
[0008]基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;
[0009]将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
[0010]可选地,在将构建得到的图数据输入至训练完成的网页登录实体识别模型之前,所述方法还包括:
[0011]将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。
[0012]可选地,所述基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,包括:
[0013]使用TF

IDF方法选择候选网页标签的关键词,使用关键词词频量化候选网页标签节点特征;
[0014]基于网页Dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重;
[0015]基于候选网页标签节点特征和网页标签节点之间的边权重构建网页标签图数据。
[0016]可选地,所述基于网页Dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重,包括通过第一公式进行计算,所述第一公式具体包括:
[0017]Similarity=(1

distance)/max(path length 1,path length 2)其中,Similarity表示网页标签节点之间的边权重,distance表示候选网页标签之间的距离,pathlength1和pathlength2分别为两个候选网页标签在Domtree中深度。
[0018]可选地,将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,包括:
[0019]通过正则匹配法抽取出对预设类型的网页标签和包含登录关键词的网页标签进行抽取。
[0020]可选地,所述预设类型的网页标签至少包括:input标签和button标签。
[0021]第二方面,提供了一种网页登录实体识别装置,该装置包括:
[0022]获取模块,用于通过正则匹配法获取候选登录网页数据,所述候选登录网页数据为可能包含登录功能的网页数据;
[0023]抽取模块,用于将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;
[0024]构建模块,用于基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;
[0025]输出模块,用于将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。
[0026]可选地,所述装置还包括。
[0027]训练模块,用于将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。
[0028]第三方面,提供了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的网页登录实体识别方法。
[0029]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的网页登录实体识别方法。
[0030]本申请实施例提供的技术方案中,首先通过正则匹配法获取候选登录网页数据;将候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;基于候选网页标签的关键词及候选网页标签之间的距离构建图数据;将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。本申请实施例提供的技术方案带来的有益效果至少包括:
[0031]1、无需进行大量规则匹配,检测效率高;
frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF

IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
[0051]其次,基于网页Dom tree计算候选网页标签之间的距离,DOM是文档对象化模型(Document Object Model)的简称。DOM Tree是指通过DOM将HTML页面进行解析,并生成的HTML tree树状结构和对应访问方法,计算得到网页标签节点之间的边权重,包括通过第一公式进行计算,第一公式具体包括:
[0052]Similarity=(1

distance)/max(path length 1,path length 2)
ꢀꢀ
(1)
[0053]其中,Similarity表示网页标签节点之间的边权重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页登录实体识别方法,其特征在于,所述方法包括:通过正则匹配法获取候选登录网页数据,所述候选登录网页数据为可能包含登录功能的网页数据;将所述候选登录网页数据通过正则匹配法抽取出候选网页标签,并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界;基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,其中,候选网页标签之间的距离通过各个候选网页标签的实体边界确定;将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。2.根据权利要求1所述的方法,其特征在于,在将构建得到的图数据输入至训练完成的网页登录实体识别模型之前,所述方法还包括:将不同类型的登录网页数据进行数据预处理转换为网页标签图数据,输入至图神经网络模型进行模型训练并进行函数调优、参数调优,直至训练完成得到网页登录实体识别模型。3.根据权利要求1所述的方法,其特征在于,所述基于候选网页标签的关键词及候选网页标签之间的距离构建图数据,包括:使用TF

IDF方法选择候选网页标签的关键词,使用关键词词频量化候选网页标签节点特征;基于网页Dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重;基于候选网页标签节点特征和网页标签节点之间的边权重构建网页标签图数据。4.根据权利要求3所述的方法,其特征在于,所述基于网页Dom tree计算候选网页标签之间的距离,计算得到网页标签节点之间的边权重,包括通过第一公式进行计算,所述第一公式具体包括:Smilarity=(1

distance)/max(path length 1,path length 2)其中,Similarity表示网页标签节点之间的边权重,dis...

【专利技术属性】
技术研发人员:李乾坤何召阳刘乃海靳宇馨王欣宇袁伟
申请(专利权)人:北京墨云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1