一种基于改进的Stacking策略的钓鱼网站检测方法技术

技术编号:30155455 阅读:78 留言:0更新日期:2021-09-25 15:06
本发明专利技术公开了一种基于改进的Stacking策略的钓鱼网站检测方法,针对目前大多数钓鱼网站检测技术准确率低、计算资源消耗大和检测不及时等问题,通过将多个分类表现优异的基学习器通过Stacking策略集成为一个高性能模型,并且把该Stacking算法第一级的输入特征与预测结果同时作为第二级的输入特征,充分发挥各模型精度高、速度快等优势,从而进一步提高模型性能。实验结果表明,与传统的机器学习钓鱼网站检测技术相比,在10万级数据集上此集成学习算法在多个指标上都表现出更好的性能,其精确率达到了97.82%,F1值达到97.54%,可以有效的检测钓鱼网站。的检测钓鱼网站。的检测钓鱼网站。

【技术实现步骤摘要】
一种基于改进的Stacking策略的钓鱼网站检测方法


[0001]本专利技术涉及网络安全监测领域,更具体地说,它涉及一种基于改进的Stacking策略的钓鱼网站检测方法。

技术介绍

[0002]钓鱼网站通过伪装将其包装成正常合法的网站,诱导用户输入自己的账户密码等隐私信息,对用户的隐私和财产构成了很大威胁。为应对日益增长的网络钓鱼以及其愈发复杂的网络钓鱼技术,需要继续深入对钓鱼网站检测的研究。
[0003]钓鱼网站检测最常用的技术是使用黑白名单,但是这种方法无法检测未列入黑名单的钓鱼网站,具有一定的滞后性。

技术实现思路

[0004]为解决上述技术问题,本专利技术提供一种基于改进的Stacking策略的钓鱼网站检测方法,从公开的钓鱼检测网站Alexa和Phishtank获取的数据集,设计了一种基于改进的Stacking策略的钓鱼网站检测集成学习算法。具体来说,我们从数据集中提取网站的URL特征,仅处理当前页面信息,而不依赖第三方服务,理论上可以获得最优的检测速度。通过Stacking策略将DF、GBDT、XGBoost和本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,包括以下步骤:S1:选定至少两个基础分类器,将其分为一级学习器和二级学习器;S2:提取已知网站的URL特征,并作筛选,将筛选出来的URL特征作为一级学习器的输入特征;S3:对提取URL特征的网站制作标签,标签为是否为钓鱼网站,制作的标签与其网站的输入特征,作为一个数据集;S4:重复S2和S3步骤,对多个网站URL特征进行提取筛选,得到包含多个数据集的原始数据集;S5:将S4得到的原始数据集输入至一级学习器中,一级学习器输出多个初级特征;S6:使用一级学习器的输出的初级特征、S2中提取的网站的URL特征和对应网站的标签作为二级学习器的输入特征,构成一个新的数据集;S7:将S6得到的新的数据集输入至二级学习器中,对二级学习器进行训练;S8:将需要测试的未知网站的URL特征依次经过一级学习器和二级学习器进行检测,得到检测结果。2.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S1过程中,使用DF、XGBoost、LightGBM三个基础分类器作为...

【专利技术属性】
技术研发人员:周杭霞胡强刘倩
申请(专利权)人:中国计量大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1