一种基于混合特征选择框架的钓鱼网站检测方法技术

技术编号：32465981 阅读：30 留言：0更新日期：2022-02-26 09:04

本发明专利技术涉及一种基于混合特征选择框架的钓鱼网站检测方法，采用全新设计策略，基于预设各初选类型特征，根据模型预测时间指标和准确率指标，确定最佳特征截止位置，生成目标特征组，最后将该目标特征组送入决策树分类器进行模型调参、训练模型，获得钓鱼网页检测模型，用于钓鱼网站检测系统；整个方案从混合特征选择框架方面入手，提高了特征选择的稳定性，打破以往人工设置阈值方法所带来准确率和系统检测速率无法平衡的问题，从而提升了钓鱼网站的检测效率和准确度，有效提高了网络的整体防护能力。护能力。护能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合特征选择框架的钓鱼网站检测方法

[0001]本专利技术涉及一种基于混合特征选择框架的钓鱼网站检测方法，属于钓鱼网站侦测

技术介绍

[0002]为保护用户避免遭到钓鱼攻击，国内外众多研究已经进行了多项工作，钓鱼网站的检测技术主要分为三类：基于黑白名单技术、基于启发式检测、基于机器学习的方法。
[0003]1.基于黑白名单技术基于黑白名单技术是防止网络钓鱼攻击的最简单方法之一，目前主流的浏览器集成了黑白名单以抵御网络钓鱼攻击。Google浏览器通过自动更新黑名单列表来阻止恶意网站进行钓鱼攻击，用户可以通过Google安全浏览API检查带访问站点的安全性。Jain A K和GuptaB.B等人在2016年提出了一种自动更新白名单的技术来检测钓鱼攻击，该方法使用超链接功能检查网页的合法性，访问页面时从其源代码中提取超链接并将其用于网络钓鱼检测算法，此方法可以有效检测各种类型的攻击。
[0004]Adam Oest等人2020年提出一种新型检测方法，他们首先提取网络事件，这些事件可以从原始的网络流...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：通过步骤A至步骤D，获得钓鱼网页检测模型，然后按步骤i，应用钓鱼网页检测模型，针对待检测网页实现钓鱼检测；步骤A. 针对预设数量个已知样本网址所对应样本网页对应钓鱼网页标签或非钓鱼网页标签的有效样本网址，按不同样本子数据集之间允许存在相同有效样本网址，以及单个样本子数据集包含至少个有效样本网址，执行划分获得个样本子数据集，且全部样本子数据集中的有效样本网址覆盖全部个有效样本网址，然后进入步骤B；步骤B. 针对各个样本子数据集，根据预设各初选类型特征，获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；步骤C. 获得各个样本子数据集分别所对应综合特征组之间的并集，作为目标特征组，然后进入步骤D；步骤D. 根据全部个有效样本网址分别所对应样本网页的样本源代码分别对应目标特征组中各初选类型特征的特征值，以及全部个有效样本网址分别所对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应目标特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设分类网络进行训练，获得钓鱼网页检测模型；步骤i. 获得待检测网页的源代码对应目标特征组中各初选类型特征的特征值，并应用钓鱼网页检测模型，获得待检测网页对应钓鱼网页标签或非钓鱼网页标签，针对待检测网页实现钓鱼检测。2.根据权利要求1所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B中，分别针对各个样本子数据集，执行如下步骤B1至步骤B6，获得样本子数据集所对应的综合特征组；进而获得各个样本子数据集分别所对应的综合特征组，然后进入步骤C；步骤B1. 分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码，然后进入步骤B2；步骤B2. 分别针对该样本子数据集中各有效样本网址所对应样本网页的样本源代码，获得样本源代码分别对应预设各初选类型特征的特征值，进而获得各样本源代码分别对应预设各初选类型特征的特征值，然后进入步骤B3；步骤B3. 根据各样本源代码分别对应预设各初选类型特征的特征值，分别应用各特征选择方法，针对各个初选类型特征进行打分、排序，获得各特征选择方法下、各初选类型特征的排序，构成各个初选特征排序，然后进入步骤B4；步骤B4. 针对各个初选特征排序，获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；其中，表示初选类型特征的数量；步骤B5. 针对各个初选特征排序，根据初选特征排序下个初选特征组分别所对应的预测时长与准确度，获得各个初选特征排序分别所对应的中级特征组，然后进入步骤B6；
步骤B6. 获得各初选特征排序分别所对应中级特征组之间的交集，构成该样本子数据集所对应的综合特征组。3.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B1中，分别针对样本子数据集中各有效样本网址所对应样本网页的样本源代码，按预设非数据字符库，应用正则表达式匹配方式或字符串匹配方式，剔除样本源代码中的非数据字符，更新该样本子数据集中各有效样本网址分别所对应样本网页的样本源代码。4.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B3中，所述各特征选择方法包括信息增益特征选择方法、对称不确定性特征选择方法、卡方检验特征选择方法。5.根据权利要求2所述一种基于混合特征选择框架的钓鱼网站检测方法，其特征在于：所述步骤B4中，分别针对各个初选特征排序，执行如下步骤B4
‑
1至步骤B4
‑
4，获得初选特征排序下个初选特征组分别所对应的预测时长与准确度；进而获得各初选特征排序下个初选特征组分别所对应的预测时长与准确度，然后进入步骤B5；步骤B4
‑
1. 初始化参数，并进入步骤B4
‑
2；步骤B4
‑
2. 选择初选特征排序中第1个初选类型特征至第个初选类型特征，构成第个初选特征组，然后进入步骤B4
‑
3；步骤B4
‑
3. 根据该样本子数据集中各样本源代码分别对应第个初选特征组中各初选类型特征的特征值，以及该各样本源代码分别对应样本网页对应钓鱼网页标签或非钓鱼网页标签，以样本源代码对应第个初选特征组中各初选类型特征的特征值为输入，样本源代码对应样本网页对应钓鱼网页标签或非钓鱼网页标签为输出，针对预设网络进行训练，获得训练后网络所对应的准确度，并获得训练后网络针对预设数量样本网页进行预测所对应的预测时长，构成第个初选特征组所对应的预测时长与准确度，然后进入步骤B4
‑

【专利技术属性】
技术研发人员：赵立凡，秦素娟，温巧燕，李明柱，张胜，陈飞，陈静华，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人