网络钓鱼识别方法、装置、设备及存储介质制造方法及图纸

技术编号:36608564 阅读:17 留言:0更新日期:2023-02-04 18:35
本申请提供一种网络钓鱼识别方法、装置、设备及存储介质,涉及网络安全技术领域,该网络钓鱼识别方法包括:获取待识别网站,基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集,预设特征集是根据特征截止等级确定的最简特征子集,特征截止等级用于表征基于对网络钓鱼识别准确率下降的容忍度,确定的用于识别网络钓鱼所需要选取的最简特征子集的界限;将目标特征集输入分类模型进行网络钓鱼识别处理,得到待识别网站对应的识别结果。本申请在保证网络钓鱼识别精度的前提下,能够大大提高网络钓鱼识别的效率。率。率。

【技术实现步骤摘要】
网络钓鱼识别方法、装置、设备及存储介质


[0001]本申请涉及网络安全
,尤其涉及一种网络钓鱼识别方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网的不断发展,网络钓鱼给人们日常生活带来的威胁也与日俱增。网络钓鱼攻击通过创建与合法网站相似度很高的虚假网站,诱骗用户访问来窃取重要隐私信息(比如用户姓名、电话、账号密码等),这将严重威胁到用户的隐私和财产安全。
[0003]目前,通常通过以下方式进行网络钓鱼识别:获取待识别网站的统一资源定位符(Uniform Resource Locator,URL)特征、域名信息及Web页面信息,将待识别网站的URL特征、域名信息及Web页面信息一起输入通过支持向量机算法建立的分类器进行网络钓鱼识别,以确定待识别网站是否为钓鱼网站。但通过上述方式进行网络钓鱼识别的效率较低。

技术实现思路

[0004]本申请提供一种网络钓鱼识别方法、装置、设备及存储介质,以解决通过目前方式进行网络钓鱼识别的效率较低的问题。
[0005]第一方面,本申请提供一种网络钓鱼识别方法,包括:
[0006]获取待识别网站;
[0007]基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集,预设特征集是根据特征截止等级确定的最简特征子集,特征截止等级用于表征基于对网络钓鱼识别准确率下降的容忍度,确定的用于识别网络钓鱼所需要选取的最简特征子集的界限;
[0008]将目标特征集输入分类模型进行网络钓鱼识别处理,得到待识别网站对应的识别结果。
[0009]可选的,预设特征集是通过以下方式获取的:获取样本数据集,样本数据集包括钓鱼网站样本、钓鱼网站样本对应的第一标签、非钓鱼网站样本、非钓鱼网站样本对应的第二标签;提取钓鱼网站样本和非钓鱼网站样本对应的样本特征;获取每个样本特征的度量值,度量值用于表征样本特征对分类模型的重要程度;对多个度量值进行排序,得到排序后的度量值;基于排序后的度量值、第一标签以及第二标签,将每个样本特征子集输入分类模型,得到每个样本特征子集对应的识别准确率,样本特征子集是按照度量值由高到低对样本特征进行预设数量递增组合获得的;基于识别准确率、准确率增幅阈值以及准确率下降阈值,确定特征截止等级;确定预设特征集为特征截止等级对应的样本特征子集。
[0010]可选的,基于识别准确率、准确率增幅阈值以及准确率下降阈值,确定特征截止等级,包括:获取识别准确率中最大识别准确率与每个识别准确率的差值;若相邻两个识别准确率的增幅小于准确率增幅阈值,且差值大于准确率下降阈值,则确定增幅对应的相邻两个识别准确率中较大识别准确率对应的样本特征子集所在的位置为特征截止等级。
[0011]可选的,对多个度量值进行排序,得到排序后的度量值,包括:对多个度量值进行归一化处理,得到归一化处理后的度量值;对多个归一化处理后的度量值进行排序,得到排序后的度量值。
[0012]可选的,分类模型为随机森林分类器,将目标特征集输入分类模型进行网络钓鱼识别处理,得到待识别网站对应的识别结果,包括:将目标特征集输入随机森林分类器进行网络钓鱼识别处理,得到待识别网站对应的识别结果。
[0013]可选的,基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集之前,该网络钓鱼识别方法还包括:确定待识别网站是否在黑名单中,黑名单包括钓鱼网站信息;若待识别网站在黑名单中,则确定待识别网站为钓鱼网站;若待识别网站未在黑名单中,则执行基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集的步骤。
[0014]可选的,得到待识别网站对应的识别结果之后,该网络钓鱼识别方法还包括:若识别结果为钓鱼网站,则将待识别网站加入黑名单。
[0015]第二方面,本申请提供一种网络钓鱼识别装置,包括:
[0016]第一获取模块,用于获取待识别网站;
[0017]第一处理模块,用于基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集,预设特征集是根据特征截止等级确定的最简特征子集,特征截止等级用于表征基于对网络钓鱼识别准确率下降的容忍度,确定的用于识别网络钓鱼所需要选取的最简特征子集的界限;
[0018]第二处理模块,用于将目标特征集输入分类模型进行网络钓鱼识别处理,得到待识别网站对应的识别结果。
[0019]可选的,该网络钓鱼识别装置还包括第二获取模块,用于通过以下方式获取预设特征集:获取样本数据集,样本数据集包括钓鱼网站样本、钓鱼网站样本对应的第一标签、非钓鱼网站样本、非钓鱼网站样本对应的第二标签;提取钓鱼网站样本和非钓鱼网站样本对应的样本特征;获取每个样本特征的度量值,度量值用于表征样本特征对分类模型的重要程度;对多个度量值进行排序,得到排序后的度量值;基于排序后的度量值、第一标签以及第二标签,将每个样本特征子集输入分类模型,得到每个样本特征子集对应的识别准确率,样本特征子集是按照度量值由高到低对样本特征进行预设数量递增组合获得的;基于识别准确率、准确率增幅阈值以及准确率下降阈值,确定特征截止等级;确定预设特征集为特征截止等级对应的样本特征子集。
[0020]可选的,第二获取模块在用于基于识别准确率、准确率增幅阈值以及准确率下降阈值,确定特征截止等级时,具体用于:获取识别准确率中最大识别准确率与每个识别准确率的差值;若相邻两个识别准确率的增幅小于准确率增幅阈值,且差值大于准确率下降阈值,则确定增幅对应的相邻两个识别准确率中较大识别准确率对应的样本特征子集所在的位置为特征截止等级。
[0021]可选的,第二获取模块在用于对多个度量值进行排序,得到排序后的度量值时,具体用于:对多个度量值进行归一化处理,得到归一化处理后的度量值;对多个归一化处理后的度量值进行排序,得到排序后的度量值。
[0022]可选的,分类模型为随机森林分类器,第二处理模块具体用于:将目标特征集输入
随机森林分类器进行网络钓鱼识别处理,得到待识别网站对应的识别结果。
[0023]可选的,第一处理模块还用于:基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集之前,确定待识别网站是否在黑名单中,黑名单包括钓鱼网站信息;若待识别网站在黑名单中,则确定待识别网站为钓鱼网站;若待识别网站未在黑名单中,则执行基于预设特征集,对待识别网站进行特征提取处理,得到待识别网站对应的目标特征集的步骤。
[0024]可选的,第二处理模块还用于:得到待识别网站对应的识别结果之后,若识别结果为钓鱼网站,则将待识别网站加入黑名单。
[0025]第三方面,本申请提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
[0026]存储器存储计算机执行指令;
[0027]处理器执行存储器存储的计算机执行指令,以实现如本申请第一方面所述的网络钓鱼识别方法。
[0028]第四方面,本申请提供一种计算机可读存储介质,计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络钓鱼识别方法,其特征在于,包括:获取待识别网站;基于预设特征集,对所述待识别网站进行特征提取处理,得到所述待识别网站对应的目标特征集,所述预设特征集是根据特征截止等级确定的最简特征子集,所述特征截止等级用于表征基于对所述网络钓鱼识别准确率下降的容忍度,确定的用于识别网络钓鱼所需要选取的最简特征子集的界限;将所述目标特征集输入分类模型进行网络钓鱼识别处理,得到所述待识别网站对应的识别结果。2.根据权利要求1所述的网络钓鱼识别方法,其特征在于,所述预设特征集是通过以下方式获取的:获取样本数据集,所述样本数据集包括钓鱼网站样本、所述钓鱼网站样本对应的第一标签、非钓鱼网站样本、所述非钓鱼网站样本对应的第二标签;提取所述钓鱼网站样本和所述非钓鱼网站样本对应的样本特征;获取每个所述样本特征的度量值,所述度量值用于表征所述样本特征对所述分类模型的重要程度;对多个所述度量值进行排序,得到排序后的度量值;基于所述排序后的度量值、所述第一标签以及所述第二标签,将每个样本特征子集输入所述分类模型,得到每个所述样本特征子集对应的识别准确率,所述样本特征子集是按照所述度量值由高到低对所述样本特征进行预设数量递增组合获得的;基于所述识别准确率、准确率增幅阈值以及准确率下降阈值,确定所述特征截止等级;确定所述预设特征集为所述特征截止等级对应的样本特征子集。3.根据权利要求2所述的网络钓鱼识别方法,其特征在于,所述基于所述识别准确率、准确率增幅阈值以及准确率下降阈值,确定所述特征截止等级,包括:获取所述识别准确率中最大识别准确率与每个所述识别准确率的差值;若相邻两个所述识别准确率的增幅小于所述准确率增幅阈值,且所述差值大于所述准确率下降阈值,则确定所述增幅对应的相邻两个识别准确率中较大识别准确率对应的样本特征子集所在的位置为所述特征截止等级。4.根据权利要求2所述的网络钓鱼识别方法,其特征在于,所述对多个所述度量值进行排序,得到排序后的度量值,包括:对多个所述度量值进行归一化处理,得到归一化处理后的度量值;对多个所述归一化处理后的度量值进行排序,得到...

【专利技术属性】
技术研发人员:付溪
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1