一种基于GWO-BP神经网络检测钓鱼网页的方法技术

技术编号:24333935 阅读:47 留言:0更新日期:2020-05-29 21:15
本发明专利技术公开了一种基于GWO‑BP神经网络检测钓鱼网页的方法,获取待测网页的URL的特征并分为显性特征和隐形特征;用GWO算法改进的BP神经网络分类器对隐性特征进行检测,并输出结果R

A method of detecting phishing web pages based on gwo-bp neural network

【技术实现步骤摘要】
一种基于GWO-BP神经网络检测钓鱼网页的方法
本专利技术属于网络安全的
,具体涉及一种基于GWO-BP神经网络检测钓鱼网页的方法。
技术介绍
随着互联网的发展,钓鱼攻击的频繁出现严重威胁了网络用户日常网络社交的安全与稳定,攻击者通过网络钓鱼,诱使他们打开非法网站,从而获得网络用户的私人信息。由于钓鱼攻击技术的不断升级,网络钓鱼攻击者可以使用多种技术使钓鱼网页看起来合法,传统的检测方法对于新型的网络钓鱼攻击手段不能完全检测出来。面对众多新型钓鱼攻击如果不能及时高效地检测预防,会使大量互联网用户上当受骗,造成经济损失和引发各种社会问题。黑白名单是检测钓鱼网页的一种直接有效的方法,但是面对钓鱼网站不断增加与不断变化的情况,此方法已不能完全满足钓鱼网页的检测。Google基于PageRank算法可以通过网页排名检测网络钓鱼页面,但是新建立的合法网站排名较低,PageRank算法无法正确地区分网页是否是钓鱼网页。主流的还有通过提取和分析网页的源代码可以检测出一些恶意行为,但是此方法在处理源代码在处理源代码时会花费太多时间,很可能会误判,对网络钓鱼检测效率较低。机器学习已成为预测与检测钓鱼网站的高效的方法,常见的用于检测钓鱼网页的机器学习模型有贝叶斯模型、支持向量机模型、神经网络模型等。这些模型用来检测钓鱼网站是有效的。基于常见的机器学习模型来检测钓鱼网页的方法虽然有一定效果,但是由于网络钓鱼的特征多样而复杂,特征工程构造不当将导致钓鱼网站检测的准确率与效率极不稳定,而且面对大规模数据集,很难找到合适的核函数,算法的准确性相对较低。BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络。它使用误差反向传播算法来训练全局数据样本集,首先计算神经网络中每个节点的输出,输出结果如果不能达到期望的精度,则使用反向传播函数来反向计算每个神经元节点上的误差,然后根据误差调整整个网络中节点的阈值以及神经网络中层与层之间的权重,使损失函数误差最小从而达到最优的分类效果。由于损失函数沿着均方误差下降的方向收敛过程中,阈值和权重的初始值起着非常重要的作用。初始参数(初始权重和阈值)选择不当将导致BP神经网络陷入局部极小值且收敛过程非常缓慢,这种情况极大地影响了BP神经网络在检测钓鱼网站检测上的应用效果。所述BP神经网络针对大量数据集具有主动学习能力和较好的分类能力,对于钓鱼网站的检测与预防,BP神经网络是一种启发式机器学习方法。但是初始参数(初始权重和阈值)的选择不当,将导致BP神经网络陷入局部最小值和缓慢学习收敛的状态,检测钓鱼网页的准确率不高。为了改进BP神经网络算法的缺点,使之在钓鱼网页的检测上具有高效而准确的效果。本专利技术提出了基于BP神经网络模型检测预防各种网络钓鱼,高效识别各种形式的网络钓鱼攻击,通过使用GWO(thegreywolfalgorithm)算法克服传统的BP神经网络的不足,提高了钓鱼网站检测的准确性。灰狼优化算法(GreyWolfOptimizer,GWO)由澳大利亚格里菲斯大学学者Mirjalili等人于2014年提出来的一种群智能优化算法。该算法受到灰狼捕食猎物的启发而开发的一种优化搜索方法,具有较强的收敛性、参数少、易实现等特点。GWO是一种全局搜索优化算法,它模仿自然界中灰狼的领导层级和狩猎机制将狼群分为四类:α,β,δ和ω。计算狼群每个个体的适应度,其中α狼是灰狼的首领,β狼是α狼的次优灰狼,δ狼是协助决策的第三只灰狼,剩余灰狼属于ω类别。灰狼群体的适应度从高到低依次为:α,β,δ及ω,适应度最好的三匹灰狼依次标记为α,β,δ,而剩下的灰狼标记为ω。在捕获猎物的过程中α,β和δ直接追踪猎物,其余的灰狼ω跟随并包围猎物,在GWO算法中,猎物的位置对应于特定问题的解决方案。
技术实现思路
本专利技术的目的在于提供一种基于GWO-BP神经网络检测钓鱼网页的方法,本专利技术基于GWO算法改进的BP神经网络,采用双特征机制评估网页是否为钓鱼网页,本专利技术的评估结果准确率高达97%以上,可以有效的检测出钓鱼网站,具有较好的实用性。本专利技术主要通过以下技术方案实现:一种基于GWO-BP神经网络检测钓鱼网页的方法,获取待测网页的URL的特征并分为显性特征和隐形特征;用GWO算法改进的BP神经网络分类器对隐性特征进行检测,并输出结果RS;待测网页的URL的评估计算公式如下:其中,D为待测网站的显性特征,且D=(D1,D2……Di);分别分配显性特征和显性特征50%的权重,其中,当分类器节点的输出值小于0.5时,则RS=1,否则RS=0;若评估值Z大于60,则将URL相应的网站标记为网络钓鱼网站,否则标记为正常网站。为了更好地实现本专利技术,进一步的,建立黑名单哈希库、白名单哈希库,所述黑名单哈希库是历史检测中已被标记为钓鱼网站的URL的哈希值集合,所述白名单哈希库为缓存的受信任网站的URL哈希值集合;通过建立的URL黑名单哈希库、白名单哈希库对待测网页的URL进行过滤。为了更好地实现本专利技术,进一步的,采用MD5算法对哈希库中的记录进行加密。将检测出的钓鱼网站的URL添加到黑名单哈希库。网络黑客通常将非法的URL伪装成合法的URL,以欺骗用户获取用户的私人信息。与合法URL相比,一些非法URL具有明显的可识别特征,这些特征在本专利技术中定义为显性特征。但是,还有一些钓鱼网站的URL不具有直接可识别的特征,本专利技术从这些钓鱼网页的URL中提取到的特征定义为隐性特征。因此,钓鱼网站的URL可以分为两类:具有显性特征的钓鱼URL和具有隐性特征的钓鱼URL。对于待测的网站URL当不具备显性钓鱼URL特征时则由后续的神经网络模型进一步检测提取隐性特征。为了更好地实现本专利技术,进一步的,所述显性特征为URL是否为IP形式特征D1,URL的长度特征D2,是否提交用户的信息到电子邮件特征D3,域名的使用时间和生命周期特征D4,URL中是否包含短地址特征D5,URL中是否是否包含@符号特征D6,URL中是否包含//符号特征D7,HTTP协议和SSL证书状态特征D8,域名的到期时间特征D9,网站图标的加载特征D10,域名结构是否存在https特征D11中的任意一种或者多种。为了更好地实现本专利技术,进一步的,若URL中的域名是IP地址,则D1=1;否则D1=0;其中D1∈{0,1};若URL字符长度小于等于54个字符,则D2=1;若URL字符长度大于54且小于等于75,则D2=0.5;若URL字符长度大于75,则D2=1;其中D2∈{0,0.5,1};若待测网站使用mailto()函数或者mail()函数向用户发送信息,则D3=1;否则D3=0;其中D3∈{0,1};若待测网站的域名使用时间低于6个月或者域名的生命周期小于1年,则D4=1;否则D4=0;其中D4∈{0,1};若待测网站的URL后面包含短地址,则D5=1;否则D5=0;其中D5∈{0,1};若待测网站的URL中包含@符号,则D本文档来自技高网
...

【技术保护点】
1.一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,获取待测网页的URL的特征并分为显性特征和隐形特征;用GWO算法改进的BP神经网络分类器对隐性特征进行检测,并输出结果R

【技术特征摘要】
1.一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,获取待测网页的URL的特征并分为显性特征和隐形特征;用GWO算法改进的BP神经网络分类器对隐性特征进行检测,并输出结果RS;待测网页的URL的评估计算公式如下:



其中,D为待测网站的显性特征,且D=(D1,D2……Di);
分别分配显性特征和显性特征50%的权重,其中,
当分类器节点的输出值小于0.5时,则RS=1,否则RS=0;若评估值Z大于60,则将URL相应的网站标记为网络钓鱼网站,否则标记为正常网站。


2.根据权利要求1所述的一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,建立黑名单哈希库、白名单哈希库,所述黑名单哈希库是历史检测中已被标记为钓鱼网站的URL的哈希值集合,所述白名单哈希库为缓存的受信任网站的URL哈希值集合;通过建立的URL黑名单哈希库、白名单哈希库对待测网页的URL进行过滤。


3.根据权利要求2所述的一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,采用MD5算法对哈希库中的记录进行加密。


4.根据权利要求1所述的一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,所述显性特征为URL是否为IP形式特征D1,URL的长度特征D2,是否提交用户的信息到电子邮件特征D3,域名的使用时间和生命周期特征D4,URL中是否包含短地址特征D5,URL中是否是否包含@符号特征D6,URL中是否包含//符号特征D7,HTTP协议和SSL证书状态特征D8,域名的到期时间特征D9,网站图标的加载特征D10,域名结构是否存在https特征D11中的任意一种或者多种。


5.根据权利要求4所述的一种基于GWO-BP神经网络检测钓鱼网页的方法,其特征在于,
若URL中的域名是IP地址,则D1=1;否则D1=0;其中D1∈{0,1};
若URL字符长度小于等于54个字符,则D2=1;若URL字符长度大于54且小于等于75,则D2=0.5;若URL字符长度大于75,则D2=1;其中D2∈{0,0.5,1};
若待测网站使用mailto()函数或者mail()函数向用户发送信息,则D3=1;否则D3=0;其中D3∈{0,1};
若待测网站的域名使用时间低于6个月或者域名的生命周期小于1年,则D4=1;否则D4=0;其中D4∈{0,1};
若待测网站的URL后面包含短地址,则D5=1;否则D5=0;其中D5∈{0,1};
若待测网站的URL中包含@符号,则D6=1;否则D6=0;其中D6∈{0,1};
若待测网站的URL中包含//符号,则D7=1;否则D7=0;其中D7∈{0,1};
若待测网站的URL地址使用了受信任的发行者颁发的https且证书年龄不小于1年,则D8=-1;若待测网站的URL地址使用的是一般证书颁发机构的https,则D8=0;其他情况D8=1;其中D8∈{-1,0,1};
若待测网站的域名到期时间小于等于1年,则D9=1;否则D9=0;其中D9∈{0,1};
若待测网站图标favicon.icon是从其他域加载的,则D10=1;否则D10=-1;其中D10∈{-1,1};
若待测网站域名结构存在https字符串,则D11=1;否则D11=-1,其中D11∈{-1,1}。


6...

【专利技术属性】
技术研发人员:范如范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1