一种目录数据库生成、查询方法及装置制造方法及图纸

技术编号:14707264 阅读:61 留言:0更新日期:2017-02-25 18:32
本发明专利技术提供了一种目录数据库生成、查询方法及装置,生成方法包括:获取目标网站的网站架构,根据上述网站架构确定爬虫策略;根据爬虫策略获取目标网站的源码数据;根据获取源码数据的路径确定源码数据在目录数据库中的主键,根据源码数据的特征参数确定源码数据在目录数据库中的从键;根据主键和从键确定目标网站的源码数据在目录数据库中的存储目录并存储源码数据,生成目录数据库。本发明专利技术中,生成的目录数据库存储有大量的数据信息,并且,根据主键和从键确定目标网站的源码数据在目录数据库中的存储路径,可以方便进行目录查询,因此,在进行目录扫描时,更容易扫描到脆弱性目录,从而及时对网站架构进行调整,保护网站的安全。

【技术实现步骤摘要】

本专利技术涉及计算机及信息安全
,具体而言,涉及一种目录数据库生成、查询方法及装置
技术介绍
WEB网站是互联网上应用最普遍的网站,因而经常会遭受到恶意攻击,其中目录扫描攻击是一种通用性强、危害高的攻击手段。在目录扫描攻击中,攻击者通过迭代大量的目录和文件名列表发起超文本传送协议(Hypertexttransferprotocol,HTTP)请求,获取网站目录信息拓扑,从而泄露出上传页面、后台登陆页面等敏感信息,一旦攻击者获得了这些信息,整个网站系统的安全防护将功亏一篑。为了防止网站被攻击,需要对网站的安全性进行检测,找到网站中的脆弱性目录,以便及时修改网络架构,保护网站安全。现有技术中,大都是采用目录扫描技术扫描网站目录数据库,以查找网站中的脆弱性目录,但是,现有技术中生成的网站目录数据库只是记录一些网站有可能存在的信息,存储的数据量小,缺乏分类存储,并且现有技术中的目录数据库是隐藏起来的,这样导致很难扫描到网站的脆弱性目录,从而不利对网站进行安全性检测。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种目录数据库生成、查询方法及装置,以解决现有技术的网站目录数据库存储的数据量小,缺乏分类存储,导致很难扫描到网站的脆弱性目录,不利于对网站进行安全性检测的问题。第一方面,本专利技术实施例提供了一种目录数据库生成方法,其中,所述方法包括:获取目标网站的网站架构,根据所述网站架构确定爬虫策略;根据所述爬虫策略获取所述目标网站的源码数据;根据获取所述源码数据的路径确定所述源码数据在目录数据库中的主键,根据所述源码数据的特征参数确定所述源码数据在目录数据库中的从键,所述特征参数包括:所述源码数据的类型、网络互联协议地址、脚本语言、文件类型、目录深度及目录广度;根据所述主键和所述从键确定所述目标网站的所述源码数据在所述目录数据库中的存储目录,并存储所述源码数据,生成所述目录数据库。结合第一方面,本专利技术实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据所述网站架构确定爬虫策略,包括:根据所述目标网站的网站架构,确定所述目标网站的目录深度,将所述目录深度确定为爬取深度;对所述目标网站的网站架构进行分析,构造适用于所述目标网站上所有源码的通用统一资源定位符;根据所述目标网站的网站架构,设定所述目标网站的加密数据及请求的标头信息;将所述爬取深度、所述通用统一资源定位符、所述目标网站的加密数据及所述请求的标头信息确定为所述爬虫策略。结合第一方面,本专利技术实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据所述爬虫策略获取所述目标网站的源码数据,包括:采用多线程方式从所述目标网站的网页数据流中解析源码压缩包;对所述源码压缩包进行处理,获取所述目标网站的源码数据。结合第一方面的第二种可能的实现方式,本专利技术实施例提供了上述第一方面的第三种可能的实现方式,其中,所述对所述源码压缩包进行处理,获取所述目标网站的源码数据,包括:对所述源码压缩包进行解压处理,得到所述源码的原始数据;对所述原始数据进行筛选,筛除所述原始数据中的图片、脚本及无效链接数据;对筛选后的原始数据进行去噪筛选,筛除重复的原始数据,得到所述目标网站的源码数据。第二方面,本专利技术实施例提供了一种目录数据库查询方法,其中,所述方法包括:设定目标网站的爬虫策略,根据所述爬虫策略获取所述目标网站的网站拓扑图,所述爬虫策略包括设定爬虫起始统一资源定位符,所述目标网站加密数据及请求的标头信息;根据所述目标网站的网站拓扑图及预先生成的目录数据库,采用模式匹配方法从所述目录数据库中查询与所述目标网站匹配的目录数据库子集,所述模式匹配包括网站结构化信息匹配及目录树结构匹配。结合第二方面,本专利技术实施例提供了上述对第二方面的第一种可能的实现方式,其中,所述模式匹配包括网站结构化信息匹配,所述根据所述目标网站的网站拓扑图及预先生成的目录数据库,从所述目录数据库中筛选与所述目标网站匹配的目录数据库子集,包括:从所述网站拓扑图中获取所述目标网站的结构化信息,所述结构化信息包括所述目标网站的脚本语言、所述目标网站的目录深度及所述目标网站的目录广度中的一种或多种;根据所述目标网站的结构化信息,采用置换函数对所述目录数据库中的目录数据库子集进行状态转换,筛除与所述结构化信息不匹配的目录数据库子集;将所述目录数据库中剩余的目录数据库子集确定为与所述目标网站匹配的目录数据库子集。结合第二方面,本专利技术实施例提供了上述第二方面的第二种可能的实现方式,其中,所述模式匹配包括目录树结构匹配,所述根据所述目标网站的网站拓扑图及预先生成的目录数据库,从所述目录数据库中查询与所述目标网站匹配的目录数据库子集,包括:将所述目录数据库中的目录数据库子集转换成目录树结构;采用模式匹配算法从所述目录数据库中的目录树结构中选取与所述目标网站的相似度大于或者等于预设值的目录树结构;将选取的目录树结构对应的目录数据库子集确定为与所述目标网站匹配的目录数据库子集。第三方面,本专利技术实施例提供了一种目录数据库生成装置,其中,所述装置包括:第一确定模块,用于获取目标网站的网站架构,根据所述网站架构确定爬虫策略;获取模块,用于根据所述爬虫策略获取所述目标网站的源码数据;第二确定模块,用于根据获取所述源码数据的路径确定所述源码数据在目录数据库中的主键,根据所述源码数据的特征参数确定所述源码数据在目录数据库中的从键,所述特征参数包括:所述源码数据的类型、网络互联协议地址、脚本语言、文件类型、目录深度及目录广度;生成模块,用于根据所述主键和所述从键确定所述目标网站的所述源码数据在所述目录数据库中的存储目录,并存储所述源码数据,生成所述目录数据库。结合第三方面,本专利技术实施例提供了上述第三方面的第一种可能的实现方式,其中,所述获取模块包括:解析单元,用于采用多线程方式从所述目标网站的网页数据流中解析源码压缩包;获取单元,用于对所述源码压缩包进行处理,获取所述目标网站的源码数据。第四方面,本专利技术实施例提供了一种目录数据库查询装置,其中,所述装置包括:获取模块,用于设定目标网站的爬虫策略,根据所述爬虫策略获取所述目标网站的网站拓扑图,所述爬虫策略包括设定爬虫起始统一资源定位符,所述目标网站加密数据及请求的标头信息;查询模块,用于根据所述目标网站的网站拓扑图及预先生成的目录数据库,采用模式匹配方法从所述目录数据库中查询与所述目标网站匹配的目录数据库子集,所述模式匹配包括网站结构化信息匹配及目录树结构匹配。本专利技术实施例提供的目录数据库生成、查询方法及装置,生成的目录数据库存储有大量的数据信息,并且,根据主键和从键确定目标网站的源码数据在目录数据库中的存储路径,可以方便进行目录查询,因此,在进行目录扫描时,更容易扫描到脆弱性目录,从而及时对网站架构进行调整,保护网站的安全。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的本文档来自技高网...
一种目录数据库生成、查询方法及装置

【技术保护点】
一种目录数据库生成方法,其特征在于,所述方法包括:获取目标网站的网站架构,根据所述网站架构确定爬虫策略;根据所述爬虫策略获取所述目标网站的源码数据;根据获取所述源码数据的路径确定所述源码数据在目录数据库中的主键,根据所述源码数据的特征参数确定所述源码数据在目录数据库中的从键,所述特征参数包括:所述源码数据的类型、网络互联协议地址、脚本语言、文件类型、目录深度及目录广度;根据所述主键和所述从键确定所述目标网站的所述源码数据在所述目录数据库中的存储目录,并存储所述源码数据,生成所述目录数据库。

【技术特征摘要】
1.一种目录数据库生成方法,其特征在于,所述方法包括:获取目标网站的网站架构,根据所述网站架构确定爬虫策略;根据所述爬虫策略获取所述目标网站的源码数据;根据获取所述源码数据的路径确定所述源码数据在目录数据库中的主键,根据所述源码数据的特征参数确定所述源码数据在目录数据库中的从键,所述特征参数包括:所述源码数据的类型、网络互联协议地址、脚本语言、文件类型、目录深度及目录广度;根据所述主键和所述从键确定所述目标网站的所述源码数据在所述目录数据库中的存储目录,并存储所述源码数据,生成所述目录数据库。2.根据权利要求1所述的方法,其特征在于,所述根据所述网站架构确定爬虫策略,包括:根据所述目标网站的网站架构,确定所述目标网站的目录深度,将所述目录深度确定为爬取深度;对所述目标网站的网站架构进行分析,构造适用于所述目标网站上所有源码的通用统一资源定位符;根据所述目标网站的网站架构,设定所述目标网站的加密数据及请求的标头信息;将所述爬取深度、所述通用统一资源定位符、所述目标网站的加密数据及所述请求的标头信息确定为所述爬虫策略。3.根据权利要求1所述的方法,其特征在于,所述根据所述爬虫策略获取所述目标网站的源码数据,包括:采用多线程方式从所述目标网站的网页数据流中解析源码压缩包;对所述源码压缩包进行处理,获取所述目标网站的源码数据。4.根据权利要求3所述的方法,其特征在于,所述对所述源码压缩包进行处理,获取所述目标网站的源码数据,包括:对所述源码压缩包进行解压处理,得到所述源码的原始数据;对所述原始数据进行筛选,筛除所述原始数据中的图片、脚本及无效链接数据;对筛选后的原始数据进行去噪筛选,筛除重复的原始数据,得到所述目标网站的源码数据。5.一种目录数据库查询方法,其特征在于,所述方法包括:设定目标网站的爬虫策略,根据所述爬虫策略获取所述目标网站的网站拓扑图,所述爬虫策略包括设定爬虫起始统一资源定位符,所述目标网站加密数据及请求的标头信息;根据所述目标网站的网站拓扑图及预先生成的目录数据库,采用模式匹配方法从所述目录数据库中查询与所述目标网站匹配的目录数据库子集,所述模式匹配包括网站结构化信息匹配及目录树结构匹配。6.根据权利要求5所述的方法,其特征在于,所述模式匹配包括网站结构化信息匹配,所述根据所述目标网站的网站拓扑图及预先生成的目录数据库,从所述目录数据库中筛选与所述目标网站...

【专利技术属性】
技术研发人员:郭燕慧孙博文徐国爱
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1