一种基于混合特征选择框架的钓鱼网站检测方法技术

技术编号:32465981 阅读:13 留言:0更新日期:2022-02-26 09:04
本发明专利技术涉及一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,基于预设各初选类型特征,根据模型预测时间指标和准确率指标,确定最佳特征截止位置,生成目标特征组,最后将该目标特征组送入决策树分类器进行模型调参、训练模型,获得钓鱼网页检测模型,用于钓鱼网站检测系统;整个方案从混合特征选择框架方面入手,提高了特征选择的稳定性,打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题,从而提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。护能力。护能力。

【技术实现步骤摘要】
一种基于混合特征选择框架的钓鱼网站检测方法


[0001]本专利技术涉及一种基于混合特征选择框架的钓鱼网站检测方法,属于钓鱼网站侦测


技术介绍

[0002]为保护用户避免遭到钓鱼攻击,国内外众多研究已经进行了多项工作,钓鱼网站的检测技术主要分为三类:基于黑白名单技术、基于启发式检测、基于机器学习的方法。
[0003]1.基于黑白名单技术基于黑白名单技术是防止网络钓鱼攻击的最简单方法之一,目前主流的浏览器集成了黑白名单以抵御网络钓鱼攻击。Google浏览器通过自动更新黑名单列表来阻止恶意网站进行钓鱼攻击,用户可以通过Google安全浏览API检查带访问站点的安全性。Jain A K和GuptaB.B等人在2016年提出了一种自动更新白名单的技术来检测钓鱼攻击,该方法使用超链接功能检查网页的合法性,访问页面时从其源代码中提取超链接并将其用于网络钓鱼检测算法,此方法可以有效检测各种类型的攻击。
[0004]Adam Oest等人2020年提出一种新型检测方法,他们首先提取网络事件,这些事件可以从原始的网络流量日志,如图像或样式元素的请求,或从网络跟踪器或JavaScript web应用程序代码的预处理数据中获得。然后使用时间戳注释每个被接收的事件,并提取进一步的属性,如IP地址、用户代理、会话标识符、引用的URL和被访问的URL。接着对引用URL和被访问URL属性,用白名单过滤法来消除正常情况下预期会发生的良性事件,例如对组织的合法网站的请求或与经批准的合作伙伴网站上的推荐人的请求。此后,通过字符串匹配技术将剩余事件的URL与来自其他数据源的已知钓鱼网站URL库进行比对,发现其相关性,这种相关性可以发现一些可能只与以前报告的URL使用类似的主机名或路径,但有其他不同之处的新型钓鱼URL。
[0005]2.基于启发式检测基于启发式的技术不依赖任何预定义的黑白名单,通常需要人工提取网页中的启发式规则来识别网络钓鱼。Rao等人提出了一个应用程序Jail

Phish,他可以提高基于搜索引擎技术的准确性,可以识别出托管在受感染服务器上的网络钓鱼站点以及新注册的合法站点,并且准确率高达98.61%,而FPR小于0.64%3.基于机器学习的方法基于机器学习的识别技术依据从网站中提取的特征识别网络钓鱼。通常网络钓鱼网站与正常网站存在可区分的特征,并且机器学习在这方面效果显著。常见的特征提取自URL、HTML、JavaScript、CSS以及第三方服务。Huaping Yuan等人从URL以及网页的链接中提取特征来检测钓鱼网站及其目标,除了给定URL的基本特征,还根据网页中的链接提取了特征矩阵用于模型训练,并比较了多种机器学习算法的性能,其中深度森林表现出较好的性能,TPP为98.3%,误报率为2.6%。此外,该方法还可以无视网站使用的语言,并提出了一种基于搜索算子的钓鱼网站目标检测方法。
[0006]Boshen Chen等人提出一种基于CSS特征的网页恶意重定向链接检测方法。此方法提取了诸如网页内容中宽度和高度为零的元素的数量、overflow属性为hidden的数量等新型特征,用于针对性的检测使用遮蔽技术来隐藏恶意重定向的网站。通过与常规方法对比实验证明,使用CSS特征模型准确率高达98%,但对于存在iframe标签的重定向网站,SVM模型会产生误判现象。
[0007]虽然基于机器学习的钓鱼监测系统的准确性主要取决于所选的特征,但是所提特征的冗余性和不相关性不仅会增加计算成本,还会导致系统的精度下降,所以高效的特征选择算法对于检测钓鱼网站也很重要。

技术实现思路

[0008]本专利技术所要解决的技术问题是提供一种基于混合特征选择框架的钓鱼网站检测方法,采用全新设计策略,提升了钓鱼网站的检测效率和准确度,有效提高了网络的整体防护能力。
[0009]本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种基于混合特征选择框架的钓鱼网站检测方法,通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;步骤A. 针对预设数量个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以及单个样本子数据集包含至少个有效样本网址,执行划分获得个样本子数据集,且全部样本子数据集中的有效样本网址覆盖全部个有效样本网址,然后进入步骤B;步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;步骤D. 根据全部个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值,以及全部个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设分类网络进行训练,获得钓鱼网页检测模型;步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。
[0010]作为本专利技术的一种优选技术方案:所述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效
样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;步骤B4. 针对各个初选特征排序,获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;其中,表示初选类型特征的数量;步骤B5. 针对各个初选特征排序,根据初选特征排序下个初选特征组分别所对应的预测时长与准确度,获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。
[0011]作为本专利技术的一种优选技术方案:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:通过步骤A至步骤D,获得钓鱼网页检测模型,然后按步骤i,应用钓鱼网页检测模型,针对待检测网页实现钓鱼检测;步骤A. 针对预设数量个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址,按不同样本子数据集之间允许存在相同有效样本网址,以及单个样本子数据集包含至少个有效样本网址,执行划分获得个样本子数据集,且全部样本子数据集中的有效样本网址覆盖全部个有效样本网址,然后进入步骤B;步骤B. 针对各个样本子数据集,根据预设各初选类型特征,获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集,作为目标特征组,然后进入步骤D;步骤D. 根据全部个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值,以及全部个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应目标特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设分类网络进行训练,获得钓鱼网页检测模型;步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值,并应用钓鱼网页检测模型,获得待检测网页对应钓鱼网页标签或非钓鱼网页标签,针对待检测网页实现钓鱼检测。2.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B中,分别针对各个样本子数据集,执行如下步骤B1至步骤B6,获得样本子数据集所对应的综合特征组;进而获得各个样本子数据集分别所对应的综合特征组,然后进入步骤C;步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码,然后进入步骤B2;步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码,获得样本源代码分别对应预设各初选类型特征的特征值,进而获得各样本源代码分别对应预设各初选类型特征的特征值,然后进入步骤B3;步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值,分别应用各特征选择方法,针对各个初选类型特征进行打分、排序,获得各特征选择方法下、各初选类型特征的排序,构成各个初选特征排序,然后进入步骤B4;步骤B4. 针对各个初选特征排序,获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;其中,表示初选类型特征的数量;步骤B5. 针对各个初选特征排序,根据初选特征排序下个初选特征组分别所对应的预测时长与准确度,获得各个初选特征排序分别所对应的中级特征组,然后进入步骤B6;
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集,构成该样本子数据集所对应的综合特征组。3.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B1中,分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码,按预设非数据字符库,应用正则表达式匹配方式或字符串匹配方式,剔除样本源代码中的非数据字符,更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。4.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B3中,所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。5.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法,其特征在于:所述步骤B4中,分别针对各个初选特征排序,执行如下步骤B4

1至步骤B4

4,获得初选特征排序下个初选特征组分别所对应的预测时长与准确度;进而获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度,然后进入步骤B5;步骤B4

1. 初始化参数,并进入步骤B4

2;步骤B4

2. 选择初选特征排序中第1个初选类型特征至第个初选类型特征,构成第个初选特征组,然后进入步骤B4

3;步骤B4

3. 根据该样本子数据集中各样本源代码分别对应第个初选特征组中各初选类型特征的特征值,以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签,以样本源代码对应第个初选特征组中各初选类型特征的特征值为输入,样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出,针对预设网络进行训练,获得训练后网络所对应的准确度,并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长,构成第个初选特征组所对应的预测时长与准确度,然后进入步骤B4

【专利技术属性】
技术研发人员:赵立凡秦素娟温巧燕李明柱张胜陈飞陈静华
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1