一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法技术

技术编号:17011646 阅读:26 留言:0更新日期:2018-01-11 08:24
本发明专利技术提供了一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,包括以下步骤:S1、提取模仿URL链接的域名及特征;S2、基于C4.5算法对模仿URL链接的域名进行分类,构建分类树;S3、对于符合分类树内类型的域名进行拦截。本发明专利技术能够提取其中的高危域名,实时检测该类域名的安全性。

【技术实现步骤摘要】
一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法
本专利技术涉及互联网
,尤其涉及一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法。
技术介绍
网络钓鱼是一种电子盗窃行为,通过在电子商务中伪装成一个值得信赖的实体来从毫无怀疑的用户那里获取敏感信息。随着互联网的普及,网络钓鱼对上网用户造成的危害越来越普遍,网络中存在大量钓鱼网站。反钓鱼工作组(Anti-PhishingWorkingGroup,APWG)在2016年第4季度发现1,220,523次钓鱼攻击[1]。中国反钓鱼联盟(Anti-PhishingAllianceofChina,APAC)在2017年第1季度共发现4,958个钓鱼网站[2]。钓鱼形势相当严峻,对网络环境构成严重的影响。研究发现:钓鱼域名中大量域名存在明显特征,例如:www.paypal.com.signin.country.en.locale.en.diamondzapper.com,缺乏网络知识的用户极容易将此类域名看作URL链接。本文称这类域名为模仿URL链接域名。由于该类域名对用户的迷惑性更强,由此快速评估此类域名的安全性,对提高用户上网本文档来自技高网...
一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法

【技术保护点】
一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,其特征在于,包括以下步骤:S1、提取模仿URL链接的域名及特征;S2、基于C4.5算法对模仿URL链接的域名进行分类,构建分类树;S3、对于符合分类树内类型的域名进行拦截。

【技术特征摘要】
1.一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,其特征在于,包括以下步骤:S1、提取模仿URL链接的域名及特征;S2、基于C4.5算法对模仿URL链接的域名进行分类,构建分类树;S3、对于符合分类树内类型的域名进行拦截。2.根据权利要求1所述的一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,其特征在于:模仿URL链接的域名及特征为:1)域名级数较高、长度较长;2)域名字符转换频率高,连续字母最大长度较短或连续数字最大长度较短;3)域名的连字符数目较高;4)域名包含品牌名,且品牌名的位置较明显;5)最长子域名级数较高。3.根据权利要求1所述的一种基于C4.5决策树的模仿URL链接钓鱼域名识别方法,其特征在于:所述的分类树的构建方法如下:Step1:对样本数据进行预处理,规范数据格式以形成决策树的训练集;Step2:计算各属性的信息增益率;假设训练样本集合为S,训练样本被分为k类,即为C={C1,C2,...,Ck},p(Si)表示样本属于Ci的比例,此时集合S的信息熵如式(1)所示,

【专利技术属性】
技术研发人员:张永斌姚强
申请(专利权)人:济南互信软件有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1