网页篡改检测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36693817 阅读:27 留言:0更新日期:2023-02-27 20:03
本申请的实施例提供了一种网页篡改检测方法、装置、电子设备及可读存储介质,涉及通信技术领域。该方法包括:获得目标网页所包括的目标标题、初始网页文本及初始图像;根据目标标题及目标文本分类模型,获得第一篡改检测结果;根据初始网页文本及目标命名实体识别模型,获得第二篡改检测结果;根据初始图像及目标图像分类模型,获得第三篡改检测结果;根据第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到目标网页的目标检测结果,其中,目标检测结果用于表示目标网页是否被篡改。如此与,通过从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。检测结果的准确率。检测结果的准确率。

【技术实现步骤摘要】
网页篡改检测方法、装置、电子设备及可读存储介质


[0001]本申请涉及通信
,具体而言,涉及一种网页篡改检测方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着互联网和网络技术的逐步发展,越来越多的人掌握网络安全技术,其中不乏大量的投机分子,他们为了谋取私利对各种网页进行攻击,而对目标网页进行篡改也是他们的一种普遍的攻击方式。目前一般是基于敏感词库、基准网页库进行比对,从而确定网页是否被篡改,但基于敏感词库的检测方式检测精度低、基于基准网页库的检测方式普适性低。

技术实现思路

[0003]本申请实施例提供了一种网页篡改检测方法、装置、电子设备和可读存储介质,其从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
[0004]本申请的实施例可以这样实现:
[0005]第一方面,本申请实施例提供一种网页篡改检测方法,所述方法包括:
[0006]获得目标网页所包括的目标标题、初始网页文本及初始图像;
[0007]根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
[0008]根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
[0009]根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
[0010]根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
[0011]第二方面,本申请实施例提供一种网页篡改检测装置,所述装置包括:
[0012]信息获得模块,用于获得目标网页所包括的目标标题、初始网页文本及初始图像;
[0013]检测模块,用于根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;
[0014]所述检测模块,还用于根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;
[0015]所述检测模块,还用于根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;
[0016]处理模块,用于根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,
得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。
[0017]第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式所述的网页篡改检测方法。
[0018]第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式所述的网页篡改检测方法。
[0019]本申请实施例提供的网页篡改检测方法、装置、电子设备及可读存储介质,首先获得目标网页所包括的目标标题、初始网页文本及初始图像,然后分别针对目标标题、初始网页文本及初始图像,利用模型进行篡改检测,得到三方面的篡改检测结果,最后根据上述篡改检测结果得到该目标网页的目标检测结果。其中,篡改检测中使用的模型根据被篡改的网页训练得到,所述目标检测结果用于表示所述目标网页是否被篡改。本申请实施例从标题、网页文本及图像三方面进行网页篡改检测,可拓宽篡改检测的适用范围,提高检测结果的准确率。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0021]图1为本申请实施例提供的电子设备的方框示意图;
[0022]图2为本申请实施例提供的网页篡改检测方法的流程示意图之一;
[0023]图3为本申请实施例提供的网页篡改检测方法的流程示意图之二;
[0024]图4为图2中步骤S130包括的子步骤的流程示意图;
[0025]图5为图2中步骤S140包括的子步骤的流程示意图;
[0026]图6为本申请实施例提供的网页篡改检测装置的方框示意图。
[0027]图标:100

电子设备;110

存储器;120

处理器;130

通信单元;200

网页篡改检测装置;210

信息获得模块;220

检测模块;230

处理模块。
具体实施方式
[0028]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0029]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何
这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0031]目前一般通过如下两种方案进行网页篡改检测。
[0032]方案一:预先建立敏感词库,如果待检测网页中的文本包含敏感词,可根据敏感词出现的频次判定该网页是否被篡改。但是,在中文中,一些词语在不同的语义环境中有不同的意思,建立敏感词库无法规避多义词的干扰,会增加误识别率。
[0033]方案二:预先建立基准网页标准库,将待检测网页与对应的基准网页进行网页文本相似度计算,当相似度低于阈值是则确定网页被篡改。这种方案普适性低,如待检测网页未在库中存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页篡改检测方法,其特征在于,所述方法包括:获得目标网页所包括的目标标题、初始网页文本及初始图像;根据所述目标标题及目标文本分类模型,获得第一篡改检测结果,其中,所述目标文本分类模型根据被篡改的网页的标题训练得到;根据所述初始网页文本及目标命名实体识别模型,获得第二篡改检测结果,其中,所述目标命名实体识别模型根据被篡改的网页的网页文本训练得到;根据所述初始图像及目标图像分类模型,获得第三篡改检测结果,其中,所述目标图像分类模型根据被篡改的网页中存在篡改内容的图像训练得到;根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,其中,所述目标检测结果用于表示所述目标网页是否被篡改。2.根据权利要求1所述的方法,其特征在于,至少一个所述模型基于所述被篡改的网页及对应的篡改类型训练得到,所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个检测结果中包括检测到的篡改类型,所述目标检测结果中包括所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型。3.根据权利要求2所述的方法,其特征在于,在三个所述模型均基于所述被篡改的网页及对应的篡改类型训练得到的情况下,所述根据所述第一篡改检测结果、第二篡改检测结果及第三篡改结果,得到所述目标网页的目标检测结果,包括:在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果均表示未篡改时,确定所述目标检测结果为未篡改;在所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中至少一个篡改检测结果表示被篡改时,将所述第一篡改检测结果、第二篡改检测结果及第三篡改结果中所包括的篡改类型作为所述目标检测结果中所包括的篡改类型。4.根据权利要求2所述的方法,其特征在于,在所述文本分类模型基于篡改网页的标题及对应的篡改类型训练得到的情况下,在根据所述目标标题及目标文本分类模型,获得第一篡改检测结果之前,所述方法还包括:获得所述目标网页的备案标题;计算所述备案标题与所述目标标题的相似度;在所述相似度大于预设相似度的情况下,确定所述第一篡改检测结果为未篡改;在所述相似度不大于所述预设相似度的情况下,执行根据所述目标标题及目标文本分类模型,获得第一篡改检测结果的步骤。5.根据权利要求1

4中任意一项所述的方法,其特征在于,所述目标命名实体识别模型使用的样本集中包括中文文本样本集、英文文本样本集及中英文文本样本集,所述根据所述初始网页文本...

【专利技术属性】
技术研发人员:范香宇
申请(专利权)人:北京知道创宇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1