一种WEB页面篡改检测方法及系统技术方案

技术编号:33341727 阅读:23 留言:0更新日期:2022-05-08 09:27
本发明专利技术公开了一种WEB页面篡改检测方法及系统,涉及网络安全领域,其包括:首次获取目标网站的信息,并将首次获取的信息作为基准页面;定期获取所述目标网站的信息,并将每次获取的信息作为比对页面;分析所述基准页面和所述比对页面的差异;将所述差异与威胁情报进行对比分析;根据对比分析后的结果判断WEB页面是否存在被篡改。本发明专利技术通过不断定期获取目标网站的信息,并将每次获取的信息与首次获取的目标网站的信息进行对比分析,判断WEB页面是否存在被篡改。否存在被篡改。否存在被篡改。

【技术实现步骤摘要】
一种WEB页面篡改检测方法及系统


[0001]本专利技术涉及网络安全领域,尤其涉及一种WEB页面篡改检测方法及系统。

技术介绍

[0002]近年来,随着Web应用的普及,企业和政府机构都相继部署了Web应用系统作为信息发布的窗口,同时更多的对外业务也越来越多地转到Web平台上。Web应用的日益广泛及其中蕴藏价值的不断提升,引发了黑客的攻击热潮,如页面篡改、网站挂马、注入类攻击、DDoS攻击等,极大地困扰着网站提供者,给企业形象、政府形象、信息网络甚至核心业务造成严重的破坏。
[0003]当前针对网页内容篡改的检测与防护的技术与机制均存在一定的滞后性,目前以部署web防火墙及防篡改产品两种方式来解决网页内容篡改的问题,但web防火墙更侧重于对外部web攻击的防护为主,对网站本身的内容完整性缺少有效的防护;网页防篡改则利用文件保护进程实现安全防护,在保护进程被卸载后将失去防护效果。

技术实现思路

[0004]针对现有技术中的不足,本专利技术提供一种WEB页面篡改检测方法及系统,通过不断定期获取目标网站的信息,并将每次获取的信息与首次获取的目标网站的信息进行对比分析,判断WEB页面是否存在被篡改。
[0005]为实现上述目的,本专利技术提供一种WEB页面篡改检测方法,其包括:
[0006]首次获取目标网站的信息,并将首次获取的信息作为基准页面;
[0007]定期获取所述目标网站的信息,并将每次获取的信息作为比对页面;
[0008]分析所述基准页面和所述比对页面的差异;
[0009]将所述差异与威胁情报进行对比分析;
[0010]根据对比分析后的结果判断WEB页面是否存在被篡改。
[0011]如上所述的WEB页面篡改检测方法,进一步地,所述目标网站的信息包括页面内容。
[0012]如上所述的WEB页面篡改检测方法,进一步地,定期获取所述目标网站的信息采用Libra爬虫技术。
[0013]如上所述的WEB页面篡改检测方法,进一步地,所述Libra爬虫技术的工程目录包括:
[0014]定义抽取网络页面结构;
[0015]对定义抽取网络页面结构进行处理;
[0016]爬虫配置文件;以及,
[0017]项目配置文件。
[0018]如上所述的WEB页面篡改检测方法,进一步地,所述Libra爬虫技术通过创建Spider类,通过所述Spider类爬取URL、构建列表并分别进行解析,其中,所述Spider类包含
如下强制属性:
[0019]爬虫标记名称;
[0020]列表,后续爬取作业所需要的URL来自于所述列表,而且爬取过程中生成的URL会自动被纳入所述列表中;
[0021]对URL进行解析的方式,其中,在爬取过程中,目标URL会生成响应,所述响应为解析过程所依托的参数。
[0022]一种WEB页面篡改检测系统,其包括:
[0023]第一页面获取模块,其用于首次获取目标网站的信息,并将首次获取的信息作为基准页面;
[0024]第二页面获取模块,其用于定期获取所述目标网站的信息,并将每次获取的信息作为比对页面;
[0025]篡改对比模块,其用于分析所述基准页面和所述比对页面的差异,并将所述差异与威胁情报进行对比分析;以及,
[0026]篡改识别模块,其用于根据对比分析后的结果判断WEB页面是否存在被篡改。
[0027]如上所述的WEB页面篡改检测系统,进一步地,所述目标网站的信息包括页面内容。
[0028]如上所述的WEB页面篡改检测系统,进一步地,定期获取所述目标网站的信息采用Libra爬虫技术。
[0029]如上所述的WEB页面篡改检测系统,进一步地,所述Libra爬虫技术的工程目录包括:
[0030]定义抽取网络页面结构;
[0031]对定义抽取网络页面结构进行处理;
[0032]爬虫配置文件;以及,
[0033]项目配置文件。
[0034]如上所述的WEB页面篡改检测系统,进一步地,所述Libra爬虫技术通过创建Spider类,通过所述Spider类爬取URL、构建列表并分别进行解析,其中,所述Spider类包含如下强制属性:
[0035]爬虫标记名称;
[0036]列表,后续爬取作业所需要的URL来自于所述列表,而且爬取过程中生成的URL会自动被纳入所述列表中;
[0037]对URL进行解析的方式,其中,在爬取过程中,目标URL会生成响应,所述响应为解析过程所依托的参数。
[0038]本专利技术与现有技术相比,其有益效果在于:
[0039]Libra爬虫技术结合Python爬虫以及Scrapy爬虫的优点,尤其是在脚本语言设计方面,该爬虫技术可以根据爬取任务类型进行灵活调整,从而提升其去重效能。
[0040]1)动态爬取,灵活性高。传统的爬虫方式,如python爬虫,只能通过简单的html方式爬取form等链接,只有当漏洞运行后才可以获取其脚本信息。然而,通过Libra爬虫可以利用javascript等来处理所爬取页面的内部脚本,从而提升爬取效率。首先用javascript对完全安全的页面进行页面内容解析,然后再用javascript分析是否被篡改的页面,再把
页面元素意义对比是否相同,不相同就是被篡改了;最后获取js文件md5后台对比。
[0041]2)具有更好的URL去重功能。在爬取过程中,会识别出大量链接,此时就可能出现网络重复。运用传统爬虫技术,可以从复杂网络交互中提取出新URL,然而提取速度较慢。通过Libra爬虫技术,构建一个完善的URL列表库,对爬取的URL进行标识及记录,并对列表库构建hash表及建立索引,可以对新URL进行快速识别,确定其是否在之前步骤中被爬取,如果存在爬取记录,会跳过进行后续链接识别。
[0042]3)降低内容使用量。在对链接进行URL去重时,Libra爬虫技术十分强调Hash表的运用,通过hash表采用散列技术将记录存储在一块连续的存储空间中,将数据内容和数据存放地址之间形成映射关系,如每个ID对应一个URL,按照每条数据中的URL中的数字为文件名进行归类,将具有相同URL的ID存在列表库中。不仅可以降低时间复杂度,并且可以降低Hash冲突可能降低至最小程度,从而提升重复判断正确率。在识别重复性的过程中,如果将识别信息存储为str格式,会使用系统大量内存,影响系统运行速度。为了解决这个问题,Libra爬虫提供了变量格式选择,进行容量大的数据类型转换为容量小的数据类型,如果将信息节点存储为int格式,可以对链接进行压缩,从而将内容使用量降低至原本的1/3。
[0043]4)注入点信息多样化。通过Libra爬虫技术,所抓取的URL数据类型多样,其包含的注入点除了HTML标签和HTML事件以外,还包括HTML属性,可以为Web管理员提供更多信息参考。
附图说明
[0044]为了更清楚地说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种WEB页面篡改检测方法,其特征在于,包括:首次获取目标网站的信息,并将首次获取的信息作为基准页面;定期获取所述目标网站的信息,并将每次获取的信息作为比对页面;分析所述基准页面和所述比对页面的差异;将所述差异与威胁情报进行对比分析;根据对比分析后的结果判断WEB页面是否存在被篡改。2.根据权利要求1所述的WEB页面篡改检测方法,其特征在于,所述目标网站的信息包括页面内容。3.根据权利要求2所述的WEB页面篡改检测方法,其特征在于,定期获取所述目标网站的信息采用Libra爬虫技术。4.根据权利要求3所述的WEB页面篡改检测方法,其特征在于,所述Libra爬虫技术的工程目录包括:定义抽取网络页面结构;对定义抽取网络页面结构进行处理;爬虫配置文件;以及,项目配置文件。5.根据权利要求4所述的WEB页面篡改检测方法,其特征在于,所述Libra爬虫技术通过创建Spider类,通过所述Spider类爬取URL、构建列表并分别进行解析,其中,所述Spider类包含如下强制属性:爬虫标记名称;列表,后续爬取作业所需要的URL来自于所述列表,而且爬取过程中生成的URL会自动被纳入所述列表中;对URL进行解析的方式,其中,在爬取过程中,目标URL会生成响应,所述响应为解析过程所依托的参数。6.一种WEB页面篡改检测系统,其特征在于,包括:第一页面获取...

【专利技术属性】
技术研发人员:谭威龙靳晓琪钱方张烜郑绿军李林城陈强
申请(专利权)人:中国南方电网有限责任公司超高压输电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1