一种恶意URL检测方法及其实现系统技术方案

技术编号:11642014 阅读:124 留言:0更新日期:2015-06-24 19:15
本发明专利技术公开了一种恶意URL检测方法和系统。本发明专利技术提供的方法包括:根据RFC1738规范中URL语法、语义结构将待检测的URL拆分为字符串;分析、补全和修改拆分得到的字符串;对由处理后的字符串构成的新URL,遍历匹配URL知识库;再通过规则判断URL是否包含恶意特征、是否属于短URL,如果是短URL,则还原成相应的长URL;最后从URL知识库中提取特征,应用机器学习的分类算法训练模型并预测URL的恶意性。应用本发明专利技术,解决了URL形式的灵活性、常变性,并能识别新出现的恶意网站,有效抵御恶意URL的危害,大幅提高用户信息的安全性能。

【技术实现步骤摘要】

本专利技术涉及一种计算机信息安全认证技术,综合利用计算机网络及机器学习算法 实现,可应用于在各终端上执行与钱财往来的信息确认等需要进行身份认证的系统及领 域,具体涉及一种恶意URL检测方法及其实现系统
技术介绍
按照RFC1738 规范,URL(UniformResourceLocator)的语法格式一般表不成 如下形式:"<scheme>:〈scheme-specific-part>",一个URL包含了方案名称(〈scheme〉) 和方案描述部分(〈scheme-specific-part>),方案描述部分完全由其使用的方案来决定。 方案名称通常是HTTP协议,方案部分如果省略也默认是HTTP协议,则其相应的方案描述 部分形式如下:"//〈user>:〈password>@〈host>:〈port>/〈u;rl-path>?〈sea;rchpa;rt>",其 中 "〈user〉: <password>@"," :〈password〉''," :〈port〉'',"/〈url-path>?〈sea;rchpa;rt>'' 和 "?〈searchpart〉"都有可能被省略。"〈searchpart〉"是查询字符串,在检测URL是否恶意 的过程中可以忽略,即:剔除"〈searchpart〉"及其前面的"? "得到的新URL与待检测URL 的恶意性是实质意义上相同的。 随着微博的快速发展,短URL服务逐渐活跃。短URL,顾名思义就是形式上比较短 的网址。短网址服务可以把一个长网址缩短,从而方便在社交网络和微博上分享链接。因 为微博等内容一般都有字数限制,较长的URL地址会挤压正文的空间,而短网址服务正好 解决了这种问题,借助短网址服务可以用简短的网址代替原来冗长的网址。然而这也带来 了安全隐患,由于短网址都是采用压缩的算法生成,这使得一些恶意的短网址更加具有隐 蔽性,同时给URL检测增加了困难。但是短URL恶意性检测已经刻不容缓,《赛门铁克互联 网安全威胁报告16》显示,2010年,将近2/3的恶意链接都采用了短链接,全球范围内达数 百万条。 目前业界的恶意URL检测方法主要包括:基于静态字符串匹配的方法,将恶意URL 存放在文件中,对待检测URL进行匹配判断;基于哈希值的对比检测,提取并保存恶意URL 的哈希值,对待检测URL计算哈希值并对比判断;基于URL所在的消息和内容,提取恶意 URL所在的消息内容和该URL对应的页面资源,对待检测URL判断是否包含恶意内容。上 述的这些方法可以处理大部分的恶意URL检测问题,不幸的是当前终端设备无法完全规避 URL灵活性、常变性导致的恶意入侵,时刻威胁着用户终端的系统安全和更重要的财产安全 等。
技术实现思路
本专利技术针对现有技术的迫切需求,提出了一种恶意URL检测方法及其实现系统, 以期提供一种检测方式更灵活,更加安全可靠的URL检测技术解决方案。 本专利技术的上述第一个目的得以实现的技术解决方案是:一种恶意URL检测方法, 其特征在于包括步骤:S1、根据RFC1738规范将待检测URL拆分为字符串,并采用补全、修改 字符串的方式整理得到实质相同的新URL;S2,将S1所得到的新URL在URL知识库中遍历 匹配,将包含于URL知识库中并直接匹配的URL检测结果输出;S3,对无法在URL知识库中 查到的新URL通过预定义规则进行判断并分类检测,包括步骤S31-S33:S31、对规则判断包 含恶意特征的URL检测结果输出;S32、对规则判断为简短化的URL,采用还原法转换成相应 长度的URL并执行步骤S2 ;S33、对于规则无法判断的URL,提取特征字段构建预测文件,并 通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。 进一步地,步骤S1中所述补全、修改字符串的方式是指:面向拆分待检测URL所得 的字符串,判断是否存在协议或是否包含查询字符串,对缺失协议的情况补充默认的HTTP 协议;对包含查询字符串的情况去除该查询字符串及其前面的"?"字符,形成实质相同的 新URL。 进一步地,步骤S2中所述URL知识库包含正常URL、恶意URL及正常URL的顶级域 名,待检测URL或待检测URL的顶级域名存在于URL知识库中直接匹配,将URL检测结果输 出。 进一步地,步骤S3中所述预定义规则包括恶意特征筛检和简短化URL筛检,其中 恶意特征筛检指的是标识只包含英文字母或数字的待检测URL,简短化URL筛检指的是标 识包含短URL服务商、URL只有三层路径且第三层中只包含英文字母或数字的待检测URL。 进一步地,步骤S33中所述分类器的线下训练方式为:基于URL知识库从中提取 URL的相关特征构建训练文件,然后采用分类算法进行训练、优化并保存模型,其中分类算 法至少为决策树、支持向量机、逻辑回归、随机森林或多种复用;所述分类器的线下训练为 随URL知识库变化定期或非定期地更新,在对预定义规则无法判断的URL进行恶意性检测 时,提取URL的相关特征字段构建预测文件,而后采用所保存的模型对预测文件作检测,得 到预测结果并输出。 本专利技术的上述第二个目的得以实现的技术解决方案是:一种恶意URL检测的实现 系统,其特征在于由整理模块、匹配模块、规则识别模块和模型预测模块相连构成,其中所 述整理模块具有待检测URL的接收端且为按照RFC1738规范对待检测URL通过采用拆分, 补全、修改的方式整理得到实质相同的新URL的处理装置;所述匹配模块接收连至整理模 块且匹配模块中包含URL知识库及匹配处理装置,所述规则识别模块具有预定义规则及基 于该规则的分类处理装置,且规则识别模块对应分类判断的结果分别输出连至模型预测模 块、整理模块或检测结果输出端,所述模型预测模块具有线下训练且持续更新的分类器,并 具有基于分类器对预测文件作恶意性检测的处理装置。 进一步地,匹配模块中所述URL知识库中包含持续更新的正常URL、恶意URL及正 常URL的顶级域名。 应用本专利技术的上述技术方案,较之于传统恶意URL检测方法具有显著的技术效 果:针对URL形式的灵活性、常变性,能识别新出现的恶意网站,有效提高了URL恶意检测的 准确性,抵御恶意URL的危害,大幅提尚用户彳目息的安全性能。【附图说明】 图1为本专利技术恶意URL检测方法的运行流程图。 图2为本专利技术恶意URL检测模型的训练流程图。 图3为本专利技术恶意URL检测的实现系统框图。【具体实施方式】 本专利技术针对现有移动支付等飞速发展的网络安全需求,创新提出了一种恶意URL 检测系统解决方案,为用户提供安全、可靠的网络环境。为了清楚地阐述本专利技术的目的、特 征和优点,下面将结合附图对本专利技术作进一步的描述。根据RFC1738规范,URL规范化形式 一般是:''〈scheme>://〈user>:〈password>@〈host>:〈port>/〈url-path&当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种恶意URL检测方法,其特征在于包括步骤:S1、根据RFC1738规范将待检测URL拆分为字符串,并采用补全、修改字符串的方式整理得到实质相同的新URL;S2,将S1所得到的新URL在URL知识库中遍历匹配,将包含于URL知识库中并直接匹配的URL检测结果输出;S3,对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测,包括步骤S31‑S33;S31、对规则判断包含恶意特征的URL检测结果输出;S32、对规则判断为简短化的URL,采用还原法转换成相应长度的URL并执行步骤S2;S33、对于规则无法判断的URL,提取特征字段构建预测文件,并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪德嘉叶芸胡振中葛彦霆刘伟
申请(专利权)人:江苏通付盾信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1