一种实现网站漏洞快速扫描的方法、装置、介质及设备制造方法及图纸

技术编号:37423095 阅读:11 留言:0更新日期:2023-04-30 09:45
本发明专利技术公开了一种实现网站漏洞快速扫描的方法、装置及介质及设备。其中,方法包括:在目标网站存在漏洞的情况下,爬取目标网站的URL,确定目标网站的URL集合,并根据URL集合构造URL项集集合;在URL项集集合中项集数量达到预先设置的增量阈值的情况下,增量挖掘URL项集中的闭频繁项集,并将闭频繁项集转化为多个URL模式;将目标网站的URL集合中的URL与URL模式进行匹配,确定目标网站的URL集合的页面聚簇信息;多次迭代上述操作,在URL队列变为空的情况下,从页面聚簇信息的每个页面中提取预定数量的URL对目标网站进行漏洞扫描,确定扫描报告。报告。报告。

【技术实现步骤摘要】
一种实现网站漏洞快速扫描的方法、装置、介质及设备


[0001]本专利技术涉及Web漏洞扫描
,并且更具体地,涉及一种实现网站漏洞快速扫描的方法、装置及介质及设备。

技术介绍

[0002]由于网站中的网页数量膨胀式增长,传统的Web安全漏洞扫描手段在面对规模较大网站时显得愈加乏力,进行漏洞扫描所需要的时间也变得越来越长。因此,如何在保证漏洞扫描覆盖率大体不降的情况下,提升Web安全漏洞扫描的效率成为了一个关键的问题。目前,针对Web安全漏洞扫描时间过长的问题,加强信息过滤、设置扫描最大时间和设置同目录最大扫描量是三个较为常见的解决手段。设置扫描最大时间和设置同目录最大扫描量虽然在一定程度上缓解了扫描时间过长的问题,但会使漏洞扫描跳过设定阈值外的页面,造成扫描覆盖率下降,并没有从本质上解决Web安全漏洞扫描效率提升的问题。随着RestfulAPI[3]的盛行,网站中通常存在着大量由同一个http请求模板生成的URL,这些URL在后端中由同一个服务入口进行处理,对这些URL对应的页面一一进行扫描工作无疑大幅降低了漏洞扫描的效率。由此可见,传统的Web安全漏洞扫描方法已难以满足现阶段的Web安全防御工作的需求。在面对规模较大的网站时,为了防止Web安全漏洞扫描在信息收集阶段过程中消耗过多的时间,通常会对爬虫的扫描网页的数量、同目录下最大扫描数量、最大扫描时间等进行限制。当一个网站的网页数量越多,爬虫运行时所处在的爬取阶段靠后,爬虫在URL的去重、待爬取队列的管理上耗费的时间成本和空间成本会越大,导致整个爬虫的运行效率变低。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供一种实现网站漏洞快速扫描的方法、装置及介质及设备。
[0004]根据本专利技术的一个方面,提供了一种实现网站漏洞快速扫描的方法,包括:
[0005]在目标网站存在漏洞的情况下,爬取目标网站的URL,确定目标网站的URL集合,并根据URL集合构造URL项集集合;
[0006]在URL项集集合中项集数量达到预先设置的增量阈值的情况下,增量挖掘URL项集中的闭频繁项集,并将闭频繁项集转化为多个URL模式;
[0007]将目标网站的URL集合中的URL与URL模式进行匹配,确定目标网站的URL集合的页面聚簇信息;
[0008]多次迭代上述操作,在URL队列变为空的情况下,从页面聚簇信息的每个页面中提取预定数量的URL对目标网站进行漏洞扫描,确定扫描报告。
[0009]可选地,爬取目标网站的URL,确定目标网站的URL集合的操作,包括:
[0010]确定目标网站的初始爬取页面的URL放入URL队列;
[0011]将URL队列中的URL进行出队操作,根据预先训练的页面分类模型判断URL是否需
要过滤;
[0012]在URL不需要过滤的情况下,根据URL进行页面爬取,确定次级URL,并根据分类模型判断次级URL是否进入URL队列;
[0013]多次重复上述操作,在URL队列变为空的情况下,确定URL集合。
[0014]可选地,根据预先训练的分类模型判断URL是否需要过滤的操作,包括:
[0015]根据URL的日志数据以及页面聚簇信息提取URL的特征向量;
[0016]将特征向量输入至页面分类模型,得到URL对应的页面分类结果,其中分类结果包括冗余页面和非冗余页面;
[0017]在URL的分类结果为冗余页面的情况下,过滤URL。
[0018]可选地,还包括:
[0019]记录爬取目标网站的URL过程中的爬虫日志;
[0020]根据页面聚簇信息和爬虫日志构造数据集;
[0021]利用数据集更新页面分类模型。
[0022]可选地,根据URL集合构造URL项集的操作,包括:
[0023]根据目标网站的域名限制信息,过滤掉URL集合中不属于该限制域名下的URL;
[0024]利用BloomFilter数据结构对URL集合中的URL进行去重;
[0025]根据过滤和去重后的URL集合,构造URL项集。
[0026]可选地,根据过滤和去重后的URL集合,构造URL项集的操作,包括:
[0027]提取URL集合中每个URL的路径以及请求参数信息;
[0028]将路径以及请求参数信息以键值对的形式表示,构造URL项集,其中键表示路径的层次或是请求参数的key,值表示路径名称或是请求参数的value。
[0029]可选地,将目标网站的URL集合中的URL与URL模式进行匹配,确定目标网站的URL集合的页面聚簇信息的操作,包括:
[0030]从URL队列中依次取出URL与构建的多个URL模式进行比对,确定该URL对应的URL模式,其中每个URL模式对应一个页面聚簇信息;
[0031]多次迭代上述操作,在URL队列为空的情况下,确定目标网站的页面聚簇信息。
[0032]根据本专利技术的另一个方面,提供了一种实现网站漏洞快速扫描的装置,包括:
[0033]构造模块,用于在目标网站存在漏洞的情况下,爬取目标网站的URL,确定目标网站的URL集合,并根据URL集合构造URL项集集合;
[0034]挖掘模块,用于在URL项集集合中项集数量达到预先设置的增量阈值的情况下,增量挖掘URL项集中的闭频繁项集,并将闭频繁项集转化为多个URL模式;
[0035]匹配模块,用于将目标网站的URL集合中的URL与URL模式进行匹配,确定目标网站的URL集合的页面聚簇信息;
[0036]扫描模块,用于多次迭代上述操作,在URL队列变为空的情况下,从页面聚簇信息的每个页面中提取预定数量的URL对目标网站进行漏洞扫描,确定扫描报告。
[0037]根据本专利技术的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本专利技术上述任一方面所述的方法。
[0038]根据本专利技术的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执
行指令,并执行所述指令以实现本专利技术上述任一方面所述的方法。
[0039]从而,本专利技术在基于页面聚类的快速Web漏洞扫描的基础上,利用增量闭频繁项集挖掘算法对页面聚类流程进行了改进,并通过增加冗余页面过滤机制对爬虫的爬行策略进行了优化。本专利技术能有效减少漏洞扫描系统在路径遍历和页面聚类上消耗的时间,并能在大体上不损失漏洞扫描覆盖率的情况下,提升Web漏洞扫描的效率。
附图说明
[0040]通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:
[0041]图1是本专利技术一示例性实施例提供的实现网站漏洞快速扫描的方法的流程示意图;
[0042]图2是本专利技术一示例性实施例提供的实现网站漏洞快速扫描的方法的另一流程示意图;
[0043]图3是本专利技术一示例性实施例提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现网站漏洞快速扫描的方法,其特征在于,包括:在目标网站存在漏洞的情况下,爬取目标网站的URL,确定所述目标网站的URL集合,并根据所述URL集合构造URL项集集合;在所述URL项集集合中项集数量达到预先设置的增量阈值的情况下,增量挖掘所述URL项集中的闭频繁项集,并将闭频繁项集转化为多个URL模式;将所述目标网站的所述URL集合中的URL与所述URL模式进行匹配,确定所述目标网站的所述URL集合的页面聚簇信息;多次迭代上述操作,从所述页面聚簇信息的每个页面中提取预定数量的URL对所述目标网站进行漏洞扫描,确定扫描报告。2.根据权利要求1所述的方法,其特征在于,爬取目标网站的URL,确定所述目标网站的URL集合的操作,包括:确定所述目标网站的初始爬取页面的URL放入URL队列;将所述URL队列中的URL进行出队操作,根据预先训练的页面分类模型判断所述URL是否需要过滤;在所述URL不需要过滤的情况下,根据所述URL进行页面爬取,确定次级URL,并根据所述分类模型判断所述次级URL是否进入所述URL队列;多次重复上述操作,在所述URL队列变为空的情况下,确定所述URL集合。3.根据权利要求2所述的方法,其特征在于,根据预先训练的分类模型判断所述URL是否需要过滤的操作,包括:根据所述URL的日志数据以及页面聚簇信息提取所述URL的特征向量;将所述特征向量输入至所述页面分类模型,得到所述URL对应的页面分类结果,其中分类结果包括冗余页面和非冗余页面;在所述URL的分类结果为冗余页面的情况下,过滤所述URL。4.根据权利要求2所述的方法,其特征在于,还包括:记录爬取所述目标网站的URL过程中的爬虫日志;根据所述页面聚簇信息和所述爬虫日志构造数据集;利用所述数据集更新所述页面分类模型。5.根据权利要求1所述的方法,其特征在于,根据所述URL集合构造URL项集的操作,包括:根据所述目标网站的域名限制信息,过滤掉所述URL集合中不属于该限制域名下的URL;利用BloomFilter数据结构对所述URL集合中的URL进行去重;根据...

【专利技术属性】
技术研发人员:朱朝阳周亮王金翔蔺子卿张晓娟李俊娥朱亚运缪思薇刘万大山王海翔曹靖怡胡柏吉宋小芹
申请(专利权)人:武汉大学国网上海市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1