网站的内容管理系统的指纹识别方法技术方案

技术编号:39491313 阅读:7 留言:0更新日期:2023-11-24 11:13
本公开提供了一种网站的内容管理系统

【技术实现步骤摘要】
网站的内容管理系统的指纹识别方法、装置及介质


[0001]本公开涉及网络安全技术,尤其是一种网站的内容管理系统
(Content Management System

CMS)
的指纹识别方法

装置及计算机可读存储介质


技术介绍

[0002]随着互联网行业的迅速发展,网络安全的重要性也日益突显

如何对网站的安全性进行检查,是网络安全人员关注的重点

在对网站的安全漏洞进行检查时,对网站的
CMS
指纹进行识别是必不可少的环节

通过识别网站的
CMS
指纹可以划定网站可能存在的安全漏洞范围,使网络安全人员可以有针对性地对网站存在的安全漏洞进行测试和处理,可以有效提高工作效率

[0003]传统的
CMS
指纹识别主要依赖于将待识别的网站的
CMS
指纹与指纹库中的
CMS
指纹进行匹配,从而确定待识别网站的
CMS
的类型

该方法需要维护数据量庞大的指纹库,且识别的准确率较低

此外,在进行匹配前需要将待识别网站的
CMS
指纹中的重要字段进行人工标注,利用人工标注的内容与指纹库中已知的指纹进行比对,浪费人工成本,网站的
CMS
识别效率较低


技术实现思路

[0004]为了解决上述问题中的至少一些,本公开实施例提供了如下技术方案

[0005]根据本公开实施例的一方面,提供一种网站的内容管理系统
CMS
指纹识别方法,包括:获取所述网站的特征信息,其中,所述特征信息包括所述网站的图标哈希值

网站路径

对所述网站路径进行请求的应答信息中的至少一种;利用预先训练的随机森林模型根据所述特征信息识别所述网站的
CMS
的指纹,其中,所述指纹包括所述
CMS
的类型或版本中的至少一者

[0006]在一些实施例中,所述特征信息包括所述网站路径和所述应答信息,所述获取所述网站的特征信息包括:经由所述网站的首页的访问链接对所述网站进行敏感目录爆破,以获取所述网站的全部链接;基于所述网站的全部链接提取所述网站的网站路径;以及基于所述网站的网站路径获得所述应答信息

[0007]在一些实施例中,所述获取所述网站的特征信息还包括:判断所述应答信息中的状态码是否为特定状态码;响应于确定所述应答信息中的第一应答信息中的状态码为特定状态码,从所提取的网站路径中移除与第一应答信息对应的第一网站路径

[0008]在一些实施例中,所述应答信息包括正文哈希值

标题信息

服务器信息

头部信息中的至少一个

[0009]在一些实施例中,所述应答信息包括应答正文的哈希值,所述获取所述网站的特征信息包括:对所述网站路径进行请求以获得应答正文;以及采用
sim
哈希算法计算所述应答正文的哈希值

[0010]在一些实施例中,所述利用预先训练的随机森林模型根据所述特征信息识别所述
网站的
CMS
的指纹包括:利用所述随机森林模型的多棵决策树中的每一棵决策树对所述特征信息进行特征匹配,以获得分类结果;根据所述多棵决策树的分类结果进行投票表决以确定所述网站的
CMS
的指纹

[0011]在一些实施例中,所述特征信息包括所述应答信息,所述应答信息包括应答正文的哈希值,所述利用所述随机森林模型的多棵决策树中的每一棵决策树对所述特征信息进行特征匹配包括:由每一棵决策树的特定决策节点:计算所述应答正文的哈希值与预设哈希值之间的汉明距离;基于汉明距离与阈值的比较,确定该特定决策节点的特征匹配的结果

[0012]在一些实施例中,所述特征信息包括除应答正文的哈希值之外的另一特征,所述利用所述随机森林模型的多棵决策树中的每一棵决策树对所述特征信息进行特征匹配包括:由每一棵决策树的特定决策节点:基于所述另一特征的字符串内容与预设字符串内容的比较,确定该特定决策节点的特征匹配的结果

[0013]在一些实施例中,所述根据所述多棵决策树的分类结果进行投票表决以确定所述网站的
CMS
的指纹包括:根据所述投票表决中获得最多选票的分类结果确定所述网站的
CMS
的指纹

[0014]在一些实施例中,所述随机森林模型是基于多个样本网站的样本特征信息和所述多个样本网站的
CMS
的样本指纹训练得到的,所述样本指纹与所述指纹一致地包括
CMS
的类型或版本中的至少一者

[0015]在一些实施例中,所述随机森林模型根据如下方式训练得到:获取所述多个样本网站的样本特征信息,其中,所述样本特征信息包括所述多个样本网站的图标哈希值

网站路径

对所述网站路径进行请求的应答信息中的至少一种;以所述多个样本网站的样本特征信息和所述多个样本网站的
CMS
的样本指纹作为训练数据对所述随机森林模型的一棵决策树进行训练;重复所述训练以获取所述随机森林模型的多颗决策树,所述多棵决策树形成所述随机森林模型

[0016]在一些实施例中,每一棵决策树的最大深度与该决策树从所述样本特征信息中随机选取的特征数量相关联

[0017]在一些实施例中,所述样本指纹包括
CMS
的多个类型或多个版本中的至少一者

[0018]根据本公开实施例的还一方面,提供一种网站的内容管理系统
CMS
指纹识别装置,包括:用于执行上述任意一个实施例所述的方法的模块

[0019]根据本公开实施例的还一方面,提供一种网站的内容管理系统
CMS
指纹识别装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行上述任意一个实施例所述的方法

[0020]根据本公开实施例的还一方面,提供一种计算机可读存储介质,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述任意一个实施例所述的方法

[0021]根据本公开实施例的还一方面,提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现上述任意一个实施例所述的方法

[0022]本公开实施例中,通过获取网站的特征信息,并利用预先训练的随机森林模型根据特征信息识别网站的
CMS
指纹

通过上述方式,网络安全人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种网站的内容管理系统
CMS
指纹识别方法,包括:获取所述网站的特征信息,其中,所述特征信息包括所述网站的图标哈希值

网站路径

对所述网站路径进行请求的应答信息中的至少一种;利用预先训练的随机森林模型根据所述特征信息识别所述网站的
CMS
的指纹,其中,所述指纹包括所述
CMS
的类型或版本中的至少一者
。2.
根据权利要求1所述的方法,其中,所述特征信息包括所述网站路径和所述应答信息,所述获取所述网站的特征信息包括:经由所述网站的首页的访问链接对所述网站进行敏感目录爆破,以获取所述网站的全部链接;基于所述网站的全部链接提取所述网站的网站路径;以及基于所述网站的网站路径获得所述应答信息
。3.
根据权利要求2所述的方法,其中,所述获取所述网站的特征信息还包括:判断所述应答信息中的状态码是否为特定状态码;响应于确定所述应答信息中的第一应答信息中的状态码为特定状态码,从所提取的网站路径中移除与第一应答信息对应的第一网站路径
。4.
根据权利要求1所述的方法,其中,所述应答信息包括正文哈希值

标题信息

服务器信息

头部信息中的至少一个
。5.
根据权利要求1所述的方法,其中,所述应答信息包括应答正文的哈希值,所述获取所述网站的特征信息包括:对所述网站路径进行请求以获得应答正文;以及采用
sim
哈希算法计算所述应答正文的哈希值
。6.
根据权利要求1所述的方法,其中,所述利用预先训练的随机森林模型根据所述特征信息识别所述网站的
CMS
的指纹包括:利用所述随机森林模型的多棵决策树中的每一棵决策树对所述特征信息进行特征匹配,以获得分类结果;根据所述多棵决策树的分类结果进行投票表决以确定所述网站的
CMS
的指纹
。7.
根据权利要求6所述的方法,其中,所述特征信息包括所述应答信息,所述应答信息包括应答正文的哈希值,所述利用所述随机森林模型的多棵决策树中的每一棵决策树对所述特征信息进行特征匹配包括:由每一棵决策树的特定决策节点:计算所述应答正文的哈希值与预设哈希值之间的汉明距离;基于汉明距离与阈值的比较,确定该特定决策节点的特征匹配的结果
。8.
根据权利要求6所述的方法,其中,所述特征信息包括除应答正文的哈希值之外的另一特征,所述利用所述随机森林模型的多棵决策树中的每一棵决策树...

【专利技术属性】
技术研发人员:吴涛刘寅生张道全韩永根王玉琪
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1