网页登录实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33711516 阅读：11 留言：0更新日期：2022-06-06 08:45

本申请公开了一种网页登录实体识别方法、装置、电子设备及存储介质。该方法首先通过正则匹配法获取候选登录网页数据；将候选登录网页数据通过正则匹配法抽取出候选网页标签，并根据候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界；基于候选网页标签的关键词及候选网页标签之间的距离构建图数据；将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表，可以看出，本申请对每个节点表征时不仅参考自身节点信息同时考虑了邻居节点信息，更加充分利用网页结构信息来决策不同网页标签所属的登录实体类别，无需对大量规则一一校验，具有检测速度快，精度高，成本低等特点。特点。特点。

全部详细技术资料下载

【技术实现步骤摘要】
网页登录实体识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据识别领域，特别涉及一种网页登录实体识别方法、装置、电子设备及存储介质。

技术介绍

[0002]传统的基于网页数据登录实体识别方法主要有基于规则的方法和基于传统机器学习的方法，它们都需要对渲染后的网页数据，针对不同的登录实体的特点，相对独立的从特定类型的网页标签及包含特定关键词的网页标签中，提取登录实体识别中依赖的多处关键位置信息，然后根据不同的登录实体设计各种规则、特征，最后判断某种登录实体的关键特征是否存在于信息中，并最终返回识别的结果。
[0003]因此，随着现在登录方式不断更新以及新型登录类型不断增加，传统网站识别缺点日渐突出。一方面，对于基于规则的方法，登录实体识别规则难以维护，需要随着网页登录方式的变动不断更新，极其浪费人力资源成本，而且还可能存在遗漏、错写规则等问题，识别效果日渐衰退。另一方面，传统建模方法缺乏对登录入口整体信息的认识，无法充分利用网页结构信息来关联多个登录实体的识别，随着网络安全意识的提升，登录实体的有效特征越来越少，识别难度越来越大，使得基于传统方法的登录实体识别的效果越来越差。

技术实现思路

[0004]基于此，本申请实施例提供了一种网页登录实体识别方法、装置、电子设备及存储介质，相比于现有技术提高了登录实体识别的识别效果。
[0005]第一方面，提供了一种网页登录实体识别方法，该方法包括：
[0006]通过正则匹配法获取候选登录网页数据，所述候选登录网页数据为可能包...

【技术保护点】

【技术特征摘要】
1.一种网页登录实体识别方法，其特征在于，所述方法包括：通过正则匹配法获取候选登录网页数据，所述候选登录网页数据为可能包含登录功能的网页数据；将所述候选登录网页数据通过正则匹配法抽取出候选网页标签，并根据所述候选网页标签之间的优先级和候选网页标签属性确定候选网页标签的实体边界；基于候选网页标签的关键词及候选网页标签之间的距离构建图数据，其中，候选网页标签之间的距离通过各个候选网页标签的实体边界确定；将构建得到的图数据输入至训练完成的网页登录实体识别模型中得到网页登录实体识别类型列表。2.根据权利要求1所述的方法，其特征在于，在将构建得到的图数据输入至训练完成的网页登录实体识别模型之前，所述方法还包括：将不同类型的登录网页数据进行数据预处理转换为网页标签图数据，输入至图神经网络模型进行模型训练并进行函数调优、参数调优，直至训练完成得到网页登录实体识别模型。3.根据权利要求1所述的方法，其特征在于，所述基于候选网页标签的关键词及候选网页标签之间的距离构建图数据，包括：使用TF
‑
IDF方法选择候选网页标签的关键词，使用关键词词频量化候选网页标签节点特征；基于网页Dom tree计算候选网页标签之间的距离，计算得到网页标签节点之间的边权重；基于候选网页标签节点特征和网页标签节点之间的边权重构建网页标签图数据。4.根据权利要求3所述的方法，其特征在于，所述基于网页Dom tree计算候选网页标签之间的距离，计算得到网页标签节点之间的边权重，包括通过第一公式进行计算，所述第一公式具体包括：Smilarity＝(1
‑
distance)/max(path length 1，path length 2)其中，Similarity表示网页标签节点之间的边权重，dis...

【专利技术属性】
技术研发人员：李乾坤，何召阳，刘乃海，靳宇馨，王欣宇，袁伟，
申请(专利权)人：北京墨云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人