网页篡改检测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：36693817 阅读：27 留言：0更新日期：2023-02-27 20:03

本申请的实施例提供了一种网页篡改检测方法、装置、电子设备及可读存储介质，涉及通信技术领域。该方法包括：获得目标网页所包括的目标标题、初始网页文本及初始图像；根据目标标题及目标文本分类模型，获得第一篡改检测结果；根据初始网页文本及目标命名实体识别模型，获得第二篡改检测结果；根据初始图像及目标图像分类模型，获得第三篡改检测结果；根据第一篡改检测结果、第二篡改检测结果及第三篡改结果，得到目标网页的目标检测结果，其中，目标检测结果用于表示目标网页是否被篡改。如此与，通过从标题、网页文本及图像三方面进行网页篡改检测，可拓宽篡改检测的适用范围，提高检测结果的准确率。检测结果的准确率。检测结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
网页篡改检测方法、装置、电子设备及可读存储介质

[0001]本申请涉及通信
，具体而言，涉及一种网页篡改检测方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网和网络技术的逐步发展，越来越多的人掌握网络安全技术，其中不乏大量的投机分子，他们为了谋取私利对各种网页进行攻击，而对目标网页进行篡改也是他们的一种普遍的攻击方式。目前一般是基于敏感词库、基准网页库进行比对，从而确定网页是否被篡改，但基于敏感词库的检测方式检测精度低、基于基准网页库的检测方式普适性低。

技术实现思路

[0003]本申请实施例提供了一种网页篡改检测方法、装置、电子设备和可读存储介质，其从标题、网页文本及图像三方面进行网页篡改检测，可拓宽篡改检测的适用范围，提高检测结果的准确率。
[0004]本申请的实施例可以这样实现：
[0005]第一方面，本申请实施例提供一种网页篡改检测方法，所述方法包括：
[0006]获得目标网页所包括的目标标题、初始网页文本及初始图像；
[0007]根据所述目标标题及目标文本分类模型，获得第一篡改检测结果，其中，所述目标文本分类模型根据被篡改的网页的标题训练得到；
[0008]根据所述初始网页文本及目标命名实体识别模型，获得第二篡改检测结果，其中，所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到；
[0009]根据所述初始图像及目标图像分类模型，获得第三篡改检测结果，其中，所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像...

【技术保护点】

【技术特征摘要】
1.一种网页篡改检测方法，其特征在于，所述方法包括：获得目标网页所包括的目标标题、初始网页文本及初始图像；根据所述目标标题及目标文本分类模型，获得第一篡改检测结果，其中，所述目标文本分类模型根据被篡改的网页的标题训练得到；根据所述初始网页文本及目标命名实体识别模型，获得第二篡改检测结果，其中，所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到；根据所述初始图像及目标图像分类模型，获得第三篡改检测结果，其中，所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到；根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果，得到所述目标网页的目标检测结果，其中，所述目标检测结果用于表示所述目标网页是否被篡改。2.根据权利要求1所述的方法，其特征在于，至少一个所述模型基于所述被篡改的网页及对应的篡改类型训练得到，所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个检测结果中包括检测到的篡改类型，所述目标检测结果中包括所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型。3.根据权利要求2所述的方法，其特征在于，在三个所述模型均基于所述被篡改的网页及对应的篡改类型训练得到的情况下，所述根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果，得到所述目标网页的目标检测结果，包括：在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果均表示未篡改时，确定所述目标检测结果为未篡改；在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个篡改检测结果表示被篡改时，将所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型作为所述目标检测结果中所包括的篡改类型。4.根据权利要求2所述的方法，其特征在于，在所述文本分类模型基于篡改网页的标题及对应的篡改类型训练得到的情况下，在根据所述目标标题及目标文本分类模型，获得第一篡改检测结果之前，所述方法还包括：获得所述目标网页的备案标题；计算所述备案标题与所述目标标题的相似度；在所述相似度大于预设相似度的情况下，确定所述第一篡改检测结果为未篡改；在所述相似度不大于所述预设相似度的情况下，执行根据所述目标标题及目标文本分类模型，获得第一篡改检测结果的步骤。5.根据权利要求1
‑
4中任意一项所述的方法，其特征在于，所述目标命名实体识别模型使用的样本集中包括中文文本样本集、英文文本样本集及中英文文本样本集，所述根据所述初始网页文本...

【专利技术属性】
技术研发人员：范香宇，
申请(专利权)人：北京知道创宇信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人