【技术实现步骤摘要】
一种基于改进的Stacking策略的钓鱼网站检测方法
[0001]本专利技术涉及网络安全监测领域,更具体地说,它涉及一种基于改进的Stacking策略的钓鱼网站检测方法。
技术介绍
[0002]钓鱼网站通过伪装将其包装成正常合法的网站,诱导用户输入自己的账户密码等隐私信息,对用户的隐私和财产构成了很大威胁。为应对日益增长的网络钓鱼以及其愈发复杂的网络钓鱼技术,需要继续深入对钓鱼网站检测的研究。
[0003]钓鱼网站检测最常用的技术是使用黑白名单,但是这种方法无法检测未列入黑名单的钓鱼网站,具有一定的滞后性。
技术实现思路
[0004]为解决上述技术问题,本专利技术提供一种基于改进的Stacking策略的钓鱼网站检测方法,从公开的钓鱼检测网站Alexa和Phishtank获取的数据集,设计了一种基于改进的Stacking策略的钓鱼网站检测集成学习算法。具体来说,我们从数据集中提取网站的URL特征,仅处理当前页面信息,而不依赖第三方服务,理论上可以获得最优的检测速度。通过Stacking策略将DF、GBD ...
【技术保护点】
【技术特征摘要】
1.一种基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,包括以下步骤:S1:选定至少两个基础分类器,将其分为一级学习器和二级学习器;S2:提取已知网站的URL特征,并作筛选,将筛选出来的URL特征作为一级学习器的输入特征;S3:对提取URL特征的网站制作标签,标签为是否为钓鱼网站,制作的标签与其网站的输入特征,作为一个数据集;S4:重复S2和S3步骤,对多个网站URL特征进行提取筛选,得到包含多个数据集的原始数据集;S5:将S4得到的原始数据集输入至一级学习器中,一级学习器输出多个初级特征;S6:使用一级学习器的输出的初级特征、S2中提取的网站的URL特征和对应网站的标签作为二级学习器的输入特征,构成一个新的数据集;S7:将S6得到的新的数据集输入至二级学习器中,对二级学习器进行训练;S8:将需要测试的未知网站的URL特征依次经过一级学习器和二级学习器进行检测,得到检测结果。2.根据权利要求1所述的基于改进的Stacking策略的钓鱼网站检测方法,其特征在于,所述S1过程中,使用DF、XGBoost、LightGBM三个基础分类器作为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。