一种URL检测方法及检测装置制造方法及图纸

技术编号:15799159 阅读:522 留言:0更新日期:2017-07-11 13:18
本发明专利技术实施例公开了一种URL检测方法及检测装置,用于解决现有技术不能进行准确的参数提取的问题,包括:获取待检测URL的路径信息;对待检测URL的路径信息进行抽象处理,获取待检测URL的原生模式;根据待检测URL的原生模式,确定待检测URL所属的URL族;URL族具有与待检测URL相同的原生模式;将待检测URL并入URL族;从URL族中选出待检测URL的代表模式;根据代表模式提取所述待检测URL中的参数进行检测,并将待检测URL的检测结果作为代表模式的检测结果。只需根据待检测URL的抽象部分对待检测URL进行参数提取,从而提高了参数提取的准确率,进而提高了URL检测的准确率。

URL detecting method and detecting device

The embodiment of the invention discloses a URL detection method and detection device, is used to solve the existing technology can not extract the accurate parameters of the problem, including obtaining the path information to be detected by URL; abstract processing path information of URL to be detected, the acquisition of the original model for the detection of URL; according to the detection of URL native mode sure, URL detected URL belongs to the URL family; and the detection of URL has the same native mode; URL detection will be incorporated into the URL family; elect representatives to be detected from URL model group URL; according to the representative of the pattern extraction parameter detection in URL were detected, and the detection results will be detected URL as a result of the detection mode. The extraction of URL parameters is based on the abstract part of the URL to be detected, thus improving the accuracy of parameter extraction, and then improving the accuracy of URL detection.

【技术实现步骤摘要】
一种URL检测方法及检测装置
本专利技术涉及通信
,尤其涉及一种URL检测方法及检测装置。
技术介绍
在对网络应用进行扫描进行风险评估时,需要对每个可能的点进行探测评估。其中的统一资源定位符(UniformResourceLocator,URL)是可能存在漏洞的点,然而,海量的URL会使得检索过程冗长繁琐,甚至不能完成。一般,对于相同种类的URL具有相同的漏洞,因此,准确地对相同种类的URL去重能帮助我们更高效地评估站点存在的漏洞,少做重复性的检测。在实际应用中,会提取参数和参数值构造有效载荷数据(payload)进行探测,同时会根据检测规则进行页面、目录或者参数名,甚至参数值进行去重。现有技术只能适应于传统的标准形式的链接,通过URL中的特殊字符来识别,例如对http://www.test.com/admin/easycheck/exerecord/?batch_id=28和http://www.test.com/admin/easycheck/exerecord/?batch_id=29这样的链接,根据URL中的“?”来识别查询字符串(querystring),根据querystring中的&来区分不同的参数,就能达到参数提取和去重的目的,即示例中这两个URL的参数是batch_id,参数值分别为28和29,对于跨站脚本攻击(CrossSiteScript,XSS)这样的检测逻辑,只需要检测两个URL中的任意一个即可。然而,互联网上有很多网站使用了URL重写(URLRewriting)技术。如http://www.somebloghost.com/Blogs/Posts.php?Year=2006&Month=12&Day=10,经过URL重写后,可以变成:http://www.somebloghost.com/Blogs/2006/12/10/。传统的参数提取和去重的方式在此就不再适用。更有甚者,比如https://www.oschina.net/news/74686/chandao-8-2-3这样的URL,识别哪个是可变的有效参数更加困难。对使用了URL重写技术的大型互联网站点(比知乎、京东)进行风险评估时,由于站点规模巨大,每个URL路径都不相同,如果不能有效地对URL进行去重,则扫描会变成大量的重复、冗余且效率低下,甚至不可能完成的工作;如果不能有效地进行参数提取,则扫描就会变成没有目标,准确率极低的无意义的工作。总之,现有技术不能准确对重写后的URL进行准确的参数提取。
技术实现思路
本专利技术提供一种URL检测方法及检测装置,用以解决现有技术中存在的不能准确对重写后的URL进行去重,从而检测效率低下的问题。本专利技术实施例提供一种统一资源定位符URL检测方法,包括:获取待检测URL的路径信息;待检测URL为经过重写处理后的URL;对待检测URL的路径信息进行抽象处理,获取待检测URL的原生模式;根据待检测URL的原生模式,确定待检测URL所属的URL族;URL族具有与待检测URL相同的原生模式;将待检测URL并入URL族;从URL族中选出待检测URL的代表模式;根据代表模式提取待检测URL中的参数进行检测,并将待检测URL的检测结果作为代表模式的检测结果。可选的,对待检测URL的路径信息进行抽象处理,获取待检测URL的原生模式,包括:通过正则替换,将待检测URL中的非特殊字符转换为字母或数字;非特殊字符包括待检测URL中不具备分隔作用的字符;将经过正则替换处理后的待检测URL中每个分隔符内的字符串按设定规则进行抽象处理。可选的,将经过正则替换处理后的待检测URL中每个分隔符内的字符串按设定规则进行抽象处理,包括:若分隔符内的字符串为字母字符串,则将字母字符串抽象为第一标识;若分隔符内的字符串为数字字符串,则将数字字符串抽象为第二标识;若分隔符内的字符串为由数字和字母组成的字符串,则抽象为第三标识。可选的,将待检测URL并入URL族中,包括:URL族为URL族内的各URL以逐层抽象方式构建的模式树;从URL族中获取N个历史URL,N为正整数;针对每一个历史URL进行如下处理:将待检测URL与该历史URL两两比较,获取待检测URL与该历史URL之间的差异;将待检测URL与该历史URL之间的差异进行逐层抽象从而构造待检测URL与该历史URL之间的子模式树;将子模式树并入URL族。可选的,将子模式树并入URL族,包括:按照由浅至深的顺序,依次将子模式树节点和URL族模式树的节点相比对;子模式树节点为子模式树中的URL模式,URL族模式树节点为URL族模式树中的URL模式;若子模式树的节点和URL族模式树的节点之间无包含或被包含关系,则直接将子模式树节点和URL模式树节点合并;若子模式树的节点包含URL族模式树的节点,则将子模式树在该节点下的子级节点与URL族的节点相比较,直至将子模式树并入URL族模式树中;若URL族模式树的节点包含子模式树的节点,则将URL族模式树的子级节点与子模式树的节点相比较,直至将子模式树并入URL族模式树中。可选的,从URL族中选出待检测URL的代表模式,包括:从待检测URL开始,由深至浅逐层遍历URL族的模式树;当模式树中存在未经抽象处理的URL的个数超过预设阈值的模式节点时,模式节点为待检测URL的代表模式。可选的,包括:若代表模式被检测过,则将代表模式的检测结果作为待检测URL的检测结果。可选的,还包括:若已有的各URL族中不具有与待检测URL具有相同原生模式的URL族,则存储待检测URL的原生模式作为一个新添加的URL族;对待检测URL进行检测。本专利技术实施例提供一种统一资源定位符URL检测装置,包括:获取模块,用于获取待检测URL的路径信息;待检测URL为经过重写处理后的URL;抽象模块,用于对待检测URL的路径信息进行抽象处理,获取待检测URL的原生模式;查询模块,用于根据待检测URL的原生模式,确定待检测URL所属的URL族;URL族具有与待检测URL相同的原生模式;合并模块,用于将待检测URL并入URL族;提取模块,用于从URL族中选出待检测URL的代表模式;处理模块,用于根据代表模式提取待检测URL中的参数进行检测,并将待检测URL的检测结果作为代表模式的检测结果。可选的,抽象模块,具体用于:通过正则替换,将待检测URL中的非特殊字符转换为字母或数字;非特殊字符包括待检测URL中不具备分隔作用的字符;将经过正则替换处理后的待检测URL中每个分隔符内的字符串按设定规则进行抽象处理。可选的,抽象模块,具体用于:若分隔符内的字符串为字母字符串,则将字母字符串抽象为第一标识;若分隔符内的字符串为数字字符串,则将数字字符串抽象为第二标识;若分隔符内的字符串为由数字和字母组成的字符串,则抽象为第三标识。可选的,URL族为URL族内的各URL以逐层抽象方式构建的模式树;合并模块,具体用于:从URL族中获取N个历史URL,N为正整数;针对每一个历史URL进行如下处理:将待检测URL与该历史URL两两比较,获取待检测URL与该历史URL之间的差异;将待检测URL与该历史URL之间的差异进行逐层抽象从而构造待检测URL与该历史URL之间的子模式本文档来自技高网
...
一种URL检测方法及检测装置

【技术保护点】
一种统一资源定位符URL检测方法,其特征在于,包括:获取待检测URL的路径信息;所述待检测URL为经过重写处理后的URL;对所述待检测URL的路径信息进行抽象处理,获取所述待检测URL的原生模式;根据所述待检测URL的原生模式,确定所述待检测URL所属的URL族;所述URL族具有与所述待检测URL相同的原生模式;将所述待检测URL并入所述URL族;从所述URL族中选出所述待检测URL的代表模式;根据所述代表模式提取所述待检测URL中的参数进行检测,并将所述待检测URL的检测结果作为所述代表模式的检测结果。

【技术特征摘要】
1.一种统一资源定位符URL检测方法,其特征在于,包括:获取待检测URL的路径信息;所述待检测URL为经过重写处理后的URL;对所述待检测URL的路径信息进行抽象处理,获取所述待检测URL的原生模式;根据所述待检测URL的原生模式,确定所述待检测URL所属的URL族;所述URL族具有与所述待检测URL相同的原生模式;将所述待检测URL并入所述URL族;从所述URL族中选出所述待检测URL的代表模式;根据所述代表模式提取所述待检测URL中的参数进行检测,并将所述待检测URL的检测结果作为所述代表模式的检测结果。2.如权利要求1所述的方法,其特征在于,对所述待检测URL的路径信息进行抽象处理,获取所述待检测URL的原生模式,包括:通过正则替换,将所述待检测URL中的非特殊字符转换为字母或数字;所述非特殊字符包括所述待检测URL中不具备分隔作用的字符;将经过正则替换处理后的所述待检测URL中每个分隔符内的字符串按设定规则进行抽象处理。3.如权利要求2所述的方法,其特征在于,将经过正则替换处理后的所述待检测URL中每个分隔符内的字符串按设定规则进行抽象处理,包括:若分隔符内的字符串为字母字符串,则将所述字母字符串抽象为第一标识;若分隔符内的字符串为数字字符串,则将所述数字字符串抽象为第二标识;若分隔符内的字符串为由数字和字母组成的字符串,则抽象为第三标识。4.如权利要求1所述的方法,其特征在于,将所述待检测URL并入所述URL族中,包括:所述URL族为所述URL族内的各URL以逐层抽象方式构建的模式树;从所述URL族中获取N个历史URL,N为正整数;针对每一个历史URL进行如下处理:将所述待检测URL与该历史URL两两比较,获取所述待检测URL与该历史URL之间的差异;将所述待检测URL与该历史URL之间的差异进行逐层抽象从而构造所述待检测URL与该历史URL之间的子模式树;将所述子模式树并入所述URL族。5.如权利要求4所述的方法,其特征在于,将所述子模式树并入所述URL族,包括:按照由浅至深的顺序,依次将所述子模式树节点和所述URL族模式树的节点相比对;所述子模式树节点为所述子模式树中的URL模式,所述URL族模式树节点为所述URL族模式树中的URL模式;若所述子模式树的节点和所述URL族模式树的节点之间无包含或被包含关系,则直接将所述子模式树节点和所述URL模式树节点合并;若所述子模式树的节点包含所述URL族模式树的节点,则将所述子模式树在该节点下的子级节点与所述URL族的节点相比较,直至将所述子模式树并入所述URL族模式树中;若所述URL族模式树的节点包含所述子模式树的节点,则将所述URL族模式树的子级节点与所述子模式树的节点相比较,直至将所述子模式树并入所述URL族模式树中。6.如权利要求4所述的方法,其特征在于,从所述URL族中选出所述待检测URL的代表模式,包括:从所述待检测URL开始,由深至浅逐层遍历所述URL族的模式树;当所述模式树中存在未经抽象处理的URL的个数超过预设阈值的模式节点时,所述模式节点为所述待检测URL的代表模式。7.如权利要求1至6任一项所述的方法,其特征在于,还包括:若所述代表模式被检测过,则将所述代表模式的检测结果作为所述待检测URL的检测结果。8.如权利要求1至6任一项所述的方法,其特征在于,还包括:若已有的各URL族中不具有与所述待检测URL具有相同原生模式的URL族,则存储所述待检测URL的原生模式作为一个新添加的URL族;对所述待检测URL进行...

【专利技术属性】
技术研发人员:张龙李志强王晓琪刘敏高学龄
申请(专利权)人:北京神州绿盟信息安全科技股份有限公司北京神州绿盟科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1