一种恶意URL检测方法及其实现系统技术方案

技术编号：11642014 阅读：124 留言：0更新日期：2015-06-24 19:15

本发明专利技术公开了一种恶意URL检测方法和系统。本发明专利技术提供的方法包括：根据RFC1738规范中URL语法、语义结构将待检测的URL拆分为字符串；分析、补全和修改拆分得到的字符串；对由处理后的字符串构成的新URL，遍历匹配URL知识库；再通过规则判断URL是否包含恶意特征、是否属于短URL，如果是短URL，则还原成相应的长URL；最后从URL知识库中提取特征，应用机器学习的分类算法训练模型并预测URL的恶意性。应用本发明专利技术，解决了URL形式的灵活性、常变性，并能识别新出现的恶意网站，有效抵御恶意URL的危害，大幅提高用户信息的安全性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种计算机信息安全认证技术，综合利用计算机网络及机器学习算法实现，可应用于在各终端上执行与钱财往来的信息确认等需要进行身份认证的系统及领域，具体涉及一种恶意URL检测方法及其实现系统。
技术介绍
按照RFC1738 规范，URL(UniformResourceLocator)的语法格式一般表不成如下形式："<scheme>:〈scheme-specific-part>"，一个URL包含了方案名称（〈scheme〉）和方案描述部分（〈scheme-specific-part>)，方案描述部分完全由其使用的方案来决定。方案名称通常是HTTP协议，方案部分如果省略也默认是HTTP协议，则其相应的方案描述部分形式如下："//〈user>:〈password>@〈host>:〈port>/〈u;rl-path>?〈sea;rchpa;rt>"，其中 "〈user〉： <password>@"，" ：〈password〉''，" ：〈port〉''，"/〈url-path>?〈sea;rchpa;rt>'' 和 "？〈searchpart〉"都有可能被省略。"〈searchpart〉"是查询字符串，在检测URL是否恶意的过程中可以忽略，即：剔除"〈searchpart〉"及其前面的"？ "得到的新URL与待检测URL 的恶意性是实质意义上相同的。随着微博的快速发展，短URL服务逐渐活跃。短URL，顾名思义就是形式上比较短的网址。短网址服务...

【技术保护点】
一种恶意URL检测方法，其特征在于包括步骤：S1、根据RFC1738规范将待检测URL拆分为字符串，并采用补全、修改字符串的方式整理得到实质相同的新URL；S2，将S1所得到的新URL在URL知识库中遍历匹配，将包含于URL知识库中并直接匹配的URL检测结果输出；S3，对无法在URL知识库中查到的新URL通过预定义规则进行判断并分类检测，包括步骤S31‑S33；S31、对规则判断包含恶意特征的URL检测结果输出；S32、对规则判断为简短化的URL，采用还原法转换成相应长度的URL并执行步骤S2；S33、对于规则无法判断的URL，提取特征字段构建预测文件，并通过线下训练且不断更新的分类器对预测文件作模型预测恶意性并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：汪德嘉，叶芸，胡振中，葛彦霆，刘伟，
申请(专利权)人：江苏通付盾信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人