恶意URL的形式化检测方法和系统技术方案

技术编号:8132458 阅读:296 留言:0更新日期:2012-12-27 05:24
本发明专利技术公开了一种恶意URL的形式化检测方法,包括:根据RFC规范,按照URL语法结构将待检测URL拆分为语法元素字符串;从拆分得到的字符串中提取指定的字符串;补全处理不存在的字符串;将补全处理后得到的字符串重新排序得到新URL,计算新URL的哈希值;遍历恶意URL特征库,用恶意URL特征库中的特征数据与待检测URL的哈希值进行对比检测。本发明专利技术还公开了一种恶意URL的形式化检测系统。本发明专利技术提出的技术方案可以有效对抗URL格式的多变性,相对传统的URL检测方法可以对经常变化格式的恶意URL有更高的检出率,也可以采用单条特征对应多条恶意URL的格式变体,所以该检测方法所需要的病毒特征库体积更小,更加节省内存和磁盘空间。

【技术实现步骤摘要】

本专利技术涉及计算机网络安全
,尤其涉及一种恶意URL的形式化检测方法和系统
技术介绍
根据RFC 规范,URL (Uniform Resource Locator)的语法格式如下“scheme://username:password@domain:port/path query_string#fragment_id,,(参看RFC1738 标准http://www. ietf. org/rfc/rfcl738. txt),所有的URL都必须遵循这条规则,其中协议(scheme)部分如果省略默认就是HTTP协议,用户名密码(username:password)部分是可以 省略的,在HTTP协议中端口号(port)默认是80,这项也是可以省略的,其中fragment_id部分在检测是否为恶意URL中是没有实际价值。根据URL格式的如上特征,可以认为URL的格式存在多变性,多条不完全相同的URL可能指向相同的链接地址,例如www. xxxx. com和http://www. xxxx. com:80是同一个链接地址,在ftp协议的URL链接中,可以有多对相同访问权限的用户名和密码,这样即使用户名密码不同的ftp连接中,指向的访问文件也是一致的,例如ftp://username:password@ftp. xxx. xxx/file,替换其他有访问权限的用户名和密码不会影响该URL指向的文件。目前恶意URL的检测方式都是基于字符串匹配的方法,安全厂商收集大量恶意URL,将其保存在特征库中,在URL检测时,仅仅进行字符串的比较,目前的这种方式可以解决大部分的恶意URL检测问题,但是由于前面提到的URL格式的多变性,一条恶意URL —个简单的变化,在没有改变其恶意链接本质的情况下,其内容已经和待匹配的病毒库中的特征已经不完全一致了,这样就造成了杀毒软件的漏报,许多黑客利用了这样的漏洞,经常变换其挂马网站的URL地址的格式,用来逃避杀软的拦截,有些恶意代码在通过网络传播自身时,往往会修改其挂马URL地址中的query部分内的值,而且其值有可能是随机产生的,通过这样的办法确保其恶意URL链接有更长的时效性。
技术实现思路
本专利技术针对URL格式多变性的特点,自定义一套形式化规则将一条URL字符串转换成统一的待检测形式数据,用来和特征库进行匹配,判定该URL是否为恶意链接。形式化的规则的出发点就是消除掉URL字符串格式的多变性,抛弃对检测无实际意义的冗余信息,并补充URL字符串中不存在的默认信息,形成格式为“scheme://domain:port/path”的待检测URL字符串。为了解决上述问题,本专利技术提出了一种恶意URL的形式化检测方法,包括 步骤a、根据RFC规范,按照URL语法结构将待检测URL拆分为语法元素字符串; 步骤b、从拆分得到的字符串中提取指定的字符串,包括协议、域名、端口号、和路径; 步骤c、判断协议字符串和端口号字符串是否存在,对不存在的字符串部分进行补全处 理;步骤d、将补全处理后得到的字符串重新排序得到新URL,计算新URL的哈希值,作为与待检测URL对应的哈希值; 步骤e、遍历恶意URL特征库,用恶意URL特征库中的特征数据与待检测URL对应的哈希值进行对比检测。进一步的,对不存在的协议字符串或者不存在的端口号字符串进行补全处理包括步骤 判断协议字符串是否存在,如果不存在则补充HTTP作为默认协议; 判断端口号字符串是否存在,如果不存在则根据所述协议字符串中的协议类型补充默认端口号。进一步的,根据所述协议字符串中的协议类型补充默认端口包括如果所述协议类型为HTTP协议则补充80作为默认端口号;如果所述协议类型为FTP协议则补充21作为默认端口号;其他协议统一处理,不用补充端口号,添加空字符串作为端口号。所述恶意URL特征库是预先将反病毒厂商捕获的每个恶意URL作为待检测URL,经过所述的步骤a至步骤d得到与每个恶意URL对应的哈希值组成的哈希值列表。本专利技术针对恶意URL链接地址字符串格式存在多变性的特点,进行字符串格式的规则化处理,抛弃了多变的并且对检测无意义的部分,补充了被默认省略的部分,组成了含有足够信息量的待检测数据。规则化的URL地址的字符串格式为“ scheme: //domain: port/path”,保留了协议,域名,端口,和路径,这些数据完全可以确定一条URL所指向的地址信息,所以对上述格式的数据进行检测和对源URL数据进行检测应该是等效的。对于形成格式为“scheme://domain:port/path”的待检测URL字符串,其中协议“scheme”部分如果被省略,就加上默认的http协议,端口 “port”部分如果被省略,如果是HTTP协议就加上默认的80,如果是FTP协议就加上21,删除URL的RFC规范中username, password,query_string, fragment_id部分,到此待检测的URL字符串就完成了,例如URL链接地址为“www. test, com/main/index, html”,经过上述规则的形式化后转变为 “http://www. test,com:80/main/index, html”。为了方便检测和控制特征库的规模,还要将待检测的URL字符串计算哈希后作为检测数据。相应的,本专利技术还提供了一种恶意URL的形式化检测系统,包括 拆分单元,用于根据RFC规范,按照URL语法结构将待检测URL拆分为语法元素字符串; 提取单元,用于从拆分得到的字符串中提取指定的字符串,包括协议、域名、端口号、和路径; 整理单元,用于判断协议字符串和端口号字符串是否存在,对不存在的字符串部分进行补全处理; 计算单元,用于将补全处理后得到的字符串重新排序得到新URL,计算新URL的哈希值,作为与待检测URL对应的哈希值 匹配单元,用于遍历恶意URL特征库,用恶意URL特征库中的特征数据与待检测URL对应的哈希值进行对比检测。进一步的,整理单元具体还用于 判断协议字符串是否存在,如果不存在则补充HTTP作为默认协议;判断端口号字符串是否存在,如果不存在则根据所述协议字符串中的协议类型补充默认端口号。进一步的,根据所述协议字符串中的协议类型补充默认端口具体包括如果所述协议类型为HTTP协议则补充80作为默认端口号;如果所述协议类型为FTP协议则补充21作为默认端口号;其他协议统一处理,不用补充端口号,添加空字符串作为端口号。所述恶意URL特征库是预先将反病毒厂商捕获的每个恶意URL作为待检测URL,经过所述的拆分单元、提取单元、整理单元、计算单元之后得到与每个恶意URL对应的哈希值组成的哈希值列表。本专利技术的有益效果是 本专利技术提出的恶意URL的检测办法可以有效对抗URL格式的多变性,相对传统的URL检测方法可以对经常变化格式的恶意URL有更高的检出率,由于下载者类木马经常自动变换下载恶意代码的URL地址格式,或者在下载恶意代码URL的Query域中添加没有实际意义的随机值来逃避杀毒软件的拦截,本检测方法对这类病毒木马有非常好的检出率。本检测方法可以采用单条特征对应多条恶意URL的格式变体,所以该检测方法所需要的本文档来自技高网
...

【技术保护点】
恶意URL的形式化检测方法,其特征在于,包括:步骤a、根据RFC规范,按照URL语法结构将待检测URL拆分为语法元素字符串;步骤b、从拆分得到的字符串中提取指定的字符串,包括协议、域名、端口号、和路径;步骤c、判断协议字符串和端口号字符串是否存在,对不存在的字符串部分进行补全处理;步骤d、将补全处理后得到的字符串重新排序得到新URL,计算新URL的哈希值,作为与待检测URL对应的哈希值;步骤e、遍历恶意URL特征库,用恶意URL特征库中的特征数据与待检测URL对应的哈希值进行对比检测。

【技术特征摘要】
1.恶意URL的形式化检测方法,其特征在于,包括 步骤a、根据RFC规范,按照URL语法结构将待检测URL拆分为语法元素字符串; 步骤b、从拆分得到的字符串中提取指定的字符串,包括协议、域名、端口号、和路径; 步骤c、判断协议字符串和端口号字符串是否存在,对不存在的字符串部分进行补全处理; 步骤d、将补全处理后得到的字符串重新排序得到新URL,计算新URL的哈希值,作为与待检测URL对应的哈希值; 步骤e、遍历恶意URL特征库,用恶意URL特征库中的特征数据与待检测URL对应的哈希值进行对比检测。2.如权利要求I所述的恶意URL的形式化检测方法,其特征在于,对不存在的协议字符串或者不存在的端口号字符串进行补全处理包括步骤 判断协议字符串是否存在,如果不存在则补充HTTP作为默认协议; 判断端口号字符串是否存在,如果不存在则根据所述协议字符串中的协议类型补充默认端口号。3.如权利要求2所述的恶意URL的形式化检测方法,其特征在于,根据所述协议字符串中的协议类型补充默认端口包括如果所述协议类型为HTTP协议则补充80作为默认端口号;如果所述协议类型为FTP协议则补充21作为默认端口号;其他协议统一处理,添加空字符串作为端口号。4.如权利要求I所述的恶意URL的形式化检测方法,其特征在于,所述恶意URL特征库是预先将反病毒厂商捕获的每个恶意URL作为待检测URL,经过所述的步骤a至步骤d得到与每个恶意URL对应的哈希值组成的哈希值列表。5.恶意UR...

【专利技术属性】
技术研发人员:苏培旺李石磊张栗伟
申请(专利权)人:哈尔滨安天科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1