URL的去重方法与装置制造方法及图纸

技术编号:21914156 阅读:37 留言:0更新日期:2019-08-21 12:29
本发明专利技术公开了一种一种URL的去重方法与装置,包括:计算两个URL的模糊值,若对比一致则认为两个URL相同,择一进行漏洞的分析检查;若不一致则认为两个URL不同,则分别进行漏洞的分析检查。模糊值的计算主要包括目录结构解析、相应目录的Hash值计算和次方值计算,结合两个值后取余,巧妙的利用Hash值和次方值的计算,可以快捷的区分URL的相似性,而且可以有效提高去重的准确率。

The Method and Device of Removing Weight from URL

【技术实现步骤摘要】
URL的去重方法与装置
本专利技术属于网络
,尤其是涉及一种利用Hash值和次方值进行URL去重的方法及应用该方法的装置。
技术介绍
URL(UniformResourceLocator,统一资源定位符)是WWW网络的统一资源定位标识,就是指网络地址。URL检测过滤是网络入侵检测系统的重要环节,公益机构URL-BLACK-LIST给出的恶意URL列表达到数百万个,再加上各个安全公司从其他渠道收集的恶意URL,恶意URL的规模达到了千万量级。如何在大型网络入侵检测设备、高性能应用网关等设备上对这些大规模恶意URL进行快速分析检测,减少资源消耗,避免影响设备性能,成为一个急需解决的问题。Web漏扫是针对爬取引擎爬到的URL进行,爬取结果中会出现相似度很高甚至实质上完全相同的URL,如果对全部结果都进行漏洞检查分析的话,会导致资源的浪费,并且会导致分析速率变慢。因此对URL去重可以大幅度地减少冗余URL的数量,提高后续工作的效率。在对URL去重的过程中会存在以下情形:http://abc.com/2019-3-21/http://abc.com/2019/03/21/123.htmlhttp://abc.com/2019/03/21/http://abc.com/2019/xxxxxx_0321/123.html如上所述的一组URL,目录中均含有类似的日期,实际上有很大可能是指向相同内容,这类URL在政府、公告、资讯、数据存储等类型的URL中广泛存在,数量庞大,因此有必要对这一类目录中含有日期内容的URL进行去重处理,以节省资源,提高Web漏扫的分析效率。目前,URL去重主要采用基于Hash(哈希)的方法,由于基于Hash的方法对局部变化不敏感,因此会导致不同的URL被误判为相同的URL。
技术实现思路
为了克服目前对URL进行Hash去重的误判问题,本专利技术旨在提供一种提高去重率和准确率的去重方法及其装置。首先本专利技术提供一种URL的去重方法,其具体技术方案为:URL去重方法,包括:计算两个URL的模糊值,若对比一致则认为两个URL相同,若不一致则认为两个URL不同,所述模糊值的计算包括以下步骤:S1.解析URL,若第i级目录具有特征F,则进行S2;若第i级目录不具有特征F,则终止;所述第i级目录为URL的最后一级目录,特征F指该目录含有数字。S2.若URL目录总级数>2,进行S3;若URL目录总级数≤2,进行S4;所述目录总级数指URL路径部分除服务器名和域名及其后的斜杠“/”外的“/”数量。第i级目录位于URL路径部分的第(i-1)个“/”与第i个“/”之间。S3.包括:S31计算第一级与第二级目录、文件属性名的Hash值,Hash值取余后相加得到结果A1;S32计算其余各目录的目录名长度*10X,相加后得到结果A2;所述X=目录总级数-本目录所在级数;S33计算A1+A2得到C,C取余后得到该URL对应的模糊值。S4.包括:S41计算第(i-1)级目录、文件属性名的Hash值,Hash值取余后相加后得到结果B1;S42计算其余各目录的目录名长度*10Y,相加后得到结果B2;所述Y=目录总级数-本目录所在级数;S43计算B1+B2得到D,D取余后得到该URL对应的模糊值。S31与S41中,当URL不含有文件属性名时,以空值计算其Hash值;Hash值取余算法采用Hash(object)%N;Hash算法优选MD5。S32与S42所述目录名长度指目录名的字符数量。S31、S33、S41、S43的取余算法相同。进一步的,若两个URL被认为相同,则任选一个URL分析检查漏洞;若两个URL被认为不同,则分别分析检查漏洞。本专利技术还提供一种应用上述去重方法的URL去重装置,包括:URL解析单元,用于解析URL的目录结构并确定目录具有的特征;Hash值计算单元,用于计算目录、文件属性名的Hash值;模糊值确定单元,用于进行取余、相加、次方值计算,以确定URL的模糊值;URL解析单元、Hash值计算单元、模糊值确定单元之间为电连接。采用以上技术方案的本专利技术,巧妙的利用Hash值和次方值的计算,对URL不同级的目录进行不同类型的计算,再结合后得出相应URL的模糊值,比较URL的模糊值从而实现对含有数字的URL进行去重,可以快捷的区分URL的相似性,而且可以有效提高去重的准确率,克服了Hash对局部变化不敏感的缺点,避免误判,应用于Web漏扫中能明显提升任务执行效率。附图说明图1是本专利技术的URL去重方法的流程示意图;图2是图1中,URL模糊值计算的步骤示意图;图3是应用所述URL去重方法的装置组成图。具体实施方式下面结合附图和实施例对本专利技术的技术方案进行详细说明。针对目前Web漏扫中出现的扫描链接(URL)相似度高、扫描速度慢的问题,提出了对相似链接进行去重的技术方案,该技术方案优先实现的是对爬取引擎爬取得到的以日期/时间命名最后一级目录的链接进行去重,以提高Web漏扫的分析效率,当URL的目录存在其他类似特征的,例如某一级目录含有其他特征(相同字符串/符号/单词等),也可以从本方案得到启示,实现去重。如图1所示,URL去重方法,先计算URL的模糊值,再将计算所得的模糊值进行对比,如果模糊值对比一致则认为两个URL是相同的,那么执行漏扫时只需要对其中任一个进行分析检查就可以;而如果模糊值对比不一致则认为两个URL是不同的,执行漏扫时就需要分别进行分析检查。为了便于后期维护,本技术方案优先采用Python实现。计算URL的模糊值的步骤,不同于常用的对URL进行Hash运算,以Hash值作为去重特征值,本专利技术对URL的部分目录进行Hash值的运算,并进行取余,对其他目录进行的是10的次方值运算,结合两种运算的结果相加并取余得到模糊值,具体叙述如下。如图2所示,S10.解析URL目录结构,至少得到该URL的基本组成,包括协议、路径、总目录级数,各目录的特征,所述目录总级数指URL路径部分除服务器名和域名(包括其后所带的斜杠“/”)外的斜杠的数量,例如:http://abc.com/2019/xxxxxx_0321/123.html,其目录总级数指的是“2019/xxxxxx_0321/123.html”包含的目录级数,根据前述方法,该URL目录的总级数为2级;最后一级目录位于最后一个“/”与第一个(2减1)“/”之间,即“xxxxxx_0321”为最后一级目录(也可称第二级目录);“html”为文件属性名;目录名长度指目录名的字符数量,例如“2019”的目录名长度为4。其中如果最后一级目录含有数字内容,表明该数字可能表示日期或时间,则进行S21或S22;如果最后一级目录不含有数字内容,则不再计算模糊值,直接执行漏洞分析检查。S21若URL目录总级数>2,进行S31至S33;S22若URL目录总级数≤2,进行S41至S43;URL目录总级数>2时,进行以下步骤:S31计算第一级与第二级目录、文件属性名的Hash值,Hash值取余后相加得到结果A1;S32计算其余各目录的目录名长度*10X,相加后得到结果A2;X=目录总级数-本目录所在级数;S33计算A1+A2得到C,C取余后得到该URL对应的模糊值。URL目录总级数≤2本文档来自技高网
...

【技术保护点】
1.URL去重方法,包括:计算两个URL的模糊值,若对比一致则认为两个URL相同,若不一致则认为两个URL不同,其特征在于,所述模糊值的计算包括以下步骤:S1.解析URL,若第i级目录具有特征F,则进行S2;若第i级目录不具有特征F,则终止;S2.若URL目录总级数>2,进行S3;若URL目录总级数≤2,进行S4;S3.包括:S31计算第一级与第二级目录、文件属性名的Hash值,Hash值取余后相加得到结果A1;S32计算其余各目录的目录名长度*10

【技术特征摘要】
1.URL去重方法,包括:计算两个URL的模糊值,若对比一致则认为两个URL相同,若不一致则认为两个URL不同,其特征在于,所述模糊值的计算包括以下步骤:S1.解析URL,若第i级目录具有特征F,则进行S2;若第i级目录不具有特征F,则终止;S2.若URL目录总级数>2,进行S3;若URL目录总级数≤2,进行S4;S3.包括:S31计算第一级与第二级目录、文件属性名的Hash值,Hash值取余后相加得到结果A1;S32计算其余各目录的目录名长度*10X,相加后得到结果A2;所述X=目录总级数-本目录所在级数;S33计算A1+A2得到C,C取余后得到该URL对应的模糊值;S4.包括:S41计算第(i-1)级目录、文件属性名的Hash值,Hash值取余后相加后得到结果B1;S42计算其余各目录的目录名长度*10Y,相加后得到结果B2;所述Y=目录总级数-本目录所在级数;S43计算B1+B2得到D,D取余后得到该URL对应的模糊值。2.根据权利要求1所述的URL去重方法,其特征在于,S1所述第i级目录为URL的最后一级目录,特征F指该目录含有数字。3.根据权利要求1所述的URL去重方法,其特征在于,S2所述目录总级数指URL路径部分除服...

【专利技术属性】
技术研发人员:魏鑫陈宏伟何建锋
申请(专利权)人:西安交大捷普网络科技有限公司
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1