本发明专利技术是一种基于网络群挖掘的钓鱼网站检测方法。对于一个给定的可疑网页,利用爬虫构造与其相关的相关网页集,进而获取可疑网站和它的潜在目标网站,再计算网站的特征签名,通过网站特征签名的相似度计算,判断可疑网站是否为钓鱼网站,如果是,则返回它的目标网站。本发明专利技术的目的就是通过检测可疑网页所在的网站是否为钓鱼,检测结束的同时也找到了钓鱼网站的目标网站。钓鱼检测的过程即是目标发现的过程,可疑网站只和与它相关的潜在目标网站做相似性计算,减少了和因特网中与它无关的合法网站之间的比较,提高了钓鱼检测的效率,有效地节约了资源,提高了工作效率。
【技术实现步骤摘要】
本专利技术涉及一种钓鱼网站检测的方法,主要从网站的相似性检测角度利用网络群挖掘可疑网站的相关网站,对钓鱼网站进行分析识别。属于信息安全与数据挖掘的交叉领域。
技术介绍
“钓鱼网站”是伴随着互联网的发展,网上购物的日益成熟而出现的一种网络诈骗行为。犯罪分子模仿合法网站做出与之视觉上几乎一样的“钓鱼网站”,用户一旦登陆该“钓鱼网站”就会泄露自己的敏感信息(如用户名、口令、帐号ID、ATM PIN码或信用卡详细信息等)。因为“钓鱼网站”通常模仿的是银行或其他知名网站,用户一旦受到钓鱼攻击,就会遭受经济损失。钓鱼攻击一般分为三个阶段首先,向潜在的受害者发送钓鱼邮件,将邮件接受者弓丨诱到一个精心设计的“钓鱼网站”;然后,获取用户的个人敏感信息,如银行账号、密码等;最后,犯罪分子用这些敏感信息进行谋利。利用被盗取的个人信息,罪犯可能盗取银行证书,直接谋利;也有可能偷取如在线游戏或社交网络的证书,将受害人用户的虚拟金币转移到他们的合伙人账户,然后转卖给其他玩家,间接谋利。由于大多数人在不同网站会使用同样的用户名和密码,一旦受到某个钓鱼攻击,有可能遭受一系列的经济损失。防止钓鱼网页攻击,从终端用户的角度,首先要让所有东西不可见。阻止钓鱼攻击触及到终端用户是第一道防线,包括过滤钓鱼邮件信息,阻止假冒的网站,以及关闭假冒网站。其次是为用户提供更好的界面,即要么给用户更好的环境要么提供更好的保护,如浏览器会在用户浏览钓鱼网页时弹出警告窗口。最后,还可以训练用户主动识别和避免钓鱼攻击。目前钓鱼网页的识别主要分为人工识别和机器识别。人工识别主要是用黑名单机制,将可疑网页与黑名单库中的网页比较,若找到相同的则为钓鱼网页,否则为合法网页。机器识别主要是基于相似性计算,抽取可疑网页的视觉特征,计算其与合法网页的相似度,进而判断其是否为钓鱼网页。K Komiyama等人分析了造成检测钓鱼网页错误的原因,以及对于非英文网站CBD方法的效率,如日语,中文等语言的网页。CBD方法是按照一定的标准从可疑网页中抽取n关键字,按照抽取的关键字在搜索引擎中搜索,并假设合法网页包含在返回的前m个搜索结果中,如果可疑网页与前m个结果中的任一个匹配,就认为是合法网页,否则为钓鱼。Maher等人采用模糊数据挖掘对电子银行钓鱼进行智能检测。他们提出了一种克服电子银行钓鱼网页评估的“模糊”方法,从而构建了一个检测电子银行钓鱼检测模型。基于模糊逻辑、数据挖掘算法,来描绘电子银行钓鱼网页因素,通过钓鱼方法的分类调查技术,用一种层结构定义了六种电子银行钓鱼网页攻击标准。Crain J等人针对新一代的鱼叉式钓鱼,用邮件用户插件结合自动和透明邮件的签名方法检测钓鱼。要求每个用户用给定的代理系统重定向邮件用户。主要思想是金融机构给用户发送一个公共钥匙,那么今后该机构收到的邮件都会用这个私人钥匙标记。现有的方法主要是针对钓鱼网页的检测,且无论特征库是黑名单还是白名单,每次检测都要计算很多与可疑网页关联性不大的网页之间的相似性,浪费很多资源,导致检测效率低。因此,我们提出了。本方法通过挖掘可疑网页相关的网页,找到其可能的目标网站,从而减少相似度计算的比较对象。抽取网站的特征签名,计算可疑网站与其可能的目标网站之间的相似性,最终找到可疑网站的目标网站。
技术实现思路
专利技术目的本专利技术的目的是提供一种。该方法能够挖掘与可疑网页相关的关联网页,从而找到可疑网站潜在的目标网站,缩小目标网站的比较范围,提高钓鱼网站的检测效率,并且最终找到钓鱼网站的目标网站。技术方案本专利技术实现方法,其特征在于该方法所包含的步骤为 步骤I)获取可疑网页的潜在目标网站 步骤1.1)输入可疑网页; 步骤1. 2)获取可疑网页所在的网站; 步骤1. 3)获取可疑网页的相关网页群 步骤1. 3.1)输入可疑网页中的所有链接; 步骤1. 3. 2)生成种子网页集; 步骤1. 3. 3)初始化迭代次数为0 ; 步骤1. 3. 4)生成有向图,迭代次数加1: 步骤1.3. 4.1)根据种子网页集,生成初始有向 步骤1. 3. 4. 2)获取种子网页集中所有网页的后向链接网页; 步骤1.3. 4. 3)把步骤1.3. 4.2)中找到的新网页加入有向图,更新有向 步骤1. 3. 4. 4)获取新网页的前向链接网页; 步骤1.3. 4. 5)把步骤1.3. 4.4)中找到的新网页加入有向图,更新有向 步骤1. 3. 5)判断有向图中是否包含可疑网页,如果包含,转步骤4.1),否则,转步骤1.3. 6); 步骤1. 3. 6)用最大流最小切算法切割有向 步骤1. 3. 7)获取可疑网页的相关网页群; 步骤1. 3. 8)判断迭代次数是否小于N次,N是常数,如果不小于,转步骤1. 3. 9),否则,转步骤1. 4); 步骤1. 3. 9)更新种子网页集 步骤1. 3. 9.1)将属于相关网页群,但是不属于种子网页集,且到它的出度或入度最高的网页加入集合种子网页集; 步骤1. 3. 9. 2)将属于种子网页集,但是不属于相关网页群,且到它的出度与入度之和小于m的网页从种子网页集中去除; 步骤1. 3. 10)判断种子网页集是否有改变,如果有改变,则转步骤1. 3. 4),否则,转步骤1. 4); 步骤1. 4)获取可疑网页的潜在目标网页群 步骤1. 4.1)获取相关网页群的邻接矩阵; 步骤1. 4. 2)计算邻接矩阵的转置与邻接矩阵的乘积矩阵; 步骤1. 4. 3)计算邻接矩阵与其转置矩阵的乘积矩阵; 步骤1. 4. 4)计算乘积矩阵的特征值; 步骤1. 4. 5)计算乘积矩阵的特征向量; 步骤1. 4. 6)归一化特征值、特征向量; 步骤1. 4. 7)获取归一化绝对值最大的元素; 步骤1. 4. 8)计算邻接矩阵与其转置矩阵的乘积矩阵; 步骤1. 5)获取潜在目标网页群; 步骤2)获取网站的网站特征签名 步骤2.1)将网站内的网页以图片的形式保存下来; 步骤2. 2)提取网页全局特征,内容形式是六维向量〈网页标题,网页文件的大小,网页中包含的图片个数,网页全局图片的面积,网页全局图片的颜色直方图,网页全局图片的二维哈尔小波变换> 步骤2. 3)计算网页的感知哈希特征,内容形式是三维向量〈离散余弦变换,马尔算子,径向方差〉; 步骤2. 4)获取网站的网站特征签名; 步骤3)网站特征签名的相似性计算 步骤3.1)输入两个网站的特征签名; 步骤3. 2)获取两个签名的第一对节点; 步骤3. 3)利用节点间相似性计算方法计算两节点之间的相似度; 步骤3. 4)判断相似度是否大于O,如果不大于,转步骤3. 7),否则,转步骤3. 5); 步骤3. 5)在节点之间添加一条权值为相似度的边; 步骤3. 6)判断签名的节点是否遍历全部遍历,如果全部遍历,转步骤3. 8),否则,转步骤 3. 7); 步骤3. 7)获取特征签名的下一对节点; 步骤3. 8)获取网站特征签名的二分 步骤3. 9)判断两个网站的特征签名的长度是否相等,如果相等,则转步骤3. 11),否则,转步骤3. 10); 步骤3. 10)获取二分图的扩展二分完全 步骤3.本文档来自技高网...
【技术保护点】
一种基于网络群挖掘的钓鱼网站检测方法,其特征在于该检测方法所包含的步骤为:步骤1)?获取可疑网页的潜在目标网站:步骤1.1)输入可疑网页;步骤1.2)获取可疑网页所在的网站;步骤1.3)获取可疑网页的相关网页群:步骤1.3.1)输入可疑网页中的所有链接;步骤1.3.2)生成种子网页集;步骤1.3.3)初始化迭代次数为0;步骤1.3.4)生成有向图,迭代次数加1:步骤1.3.4.1)根据种子网页集,生成初始有向图;步骤1.3.4.2)获取种子网页集中所有网页的后向链接网页;步骤1.3.4.3)把步骤1.3.4.2)中找到的新网页加入有向图,更新有向图;步骤1.3.4.4)获取新网页的前向链接网页;步骤1.3.4.5)把步骤1.3.4.4)中找到的新网页加入有向图,更新有向图;步骤1.3.5)判断有向图中是否包含可疑网页,如果包含,转步骤4.1),否则,转步骤1.3.6);步骤1.3.6)用最大流最小切算法切割有向图;步骤1.3.7)获取可疑网页的相关网页群;步骤1.3.8)判断迭代次数是否小于N次,N是设定的常数,如果不小于,转步骤1.3.9),否则,转步骤1.4);?步骤1.3.9)更新种子网页集:步骤1.3.9.1)将属于相关网页群,但是不属于种子网页集,且到它的出度或入度最高的网页加入集合种子网页集;步骤1.3.9.2)将属于种子网页集,但是不属于相关网页群,且到它的出度与入度之和小于m的网页从种子网页集中去除;步骤1.3.10)判断种子网页集是否有改变,如果有改变,则转步骤1.3.4),否则,转步骤1.4);步骤1.4)获取可疑网页的潜在目标网页群:步骤1.4.1)获取相关网页群的邻接矩阵;步骤1.4.2)计算邻接矩阵的转置与邻接矩阵的乘积矩阵;步骤1.4.3)计算邻接矩阵与其转置矩阵的乘积矩阵;步骤1.4.4)计算乘积矩阵的特征值;步骤1.4.5)计算乘积矩阵的特征向量;步骤1.4.6)归一化特征值、特征向量;步骤1.4.7)获取归一化绝对值最大的元素;步骤1.4.8)计算邻接矩阵与其转置矩阵的乘积矩阵;步骤1.5)获取潜在目标网页群;步骤2)获取网站的网站特征签名:步骤2.1)将网站内的网页以图片的形式保存下来;步骤2.2)提取网页全局特征,内容形式是六维向量:;?步骤2.3)计算网页的感知哈希特征,内容形式是三维向量:;步骤2.4)获取网站的网站特征签名;步骤3)网站特征签名的相似性计算:步骤3.1)输入两个网站的特征签名;步骤3.2)获取两个签名的第一对节点;步骤3.3)利用节点间相似性计算方法计算两节点之间的相似度;步骤3.4)判断相似度是否大于0,如果不大于,转步骤3.7),否则,转步骤3.5);步骤3.5)在节点之间添加一条权值为相似度的边;步骤3.6)判断签名的节点是否遍历全部遍历,如果全部遍历,转步骤3.8),否则,转步骤3.7);步骤3.7)获取特征签名的下一对节点;步骤3.8)获取网站特征签名的二分图;步骤3.9)判断两个网站的特征签名的长度是否相等,如果相等,则转步骤3.11),否则,转步骤3.10);步骤3.10)获取二分图的扩展二分完全图;步骤3.11)利用二分图的最佳匹配算法获取二分图的最佳匹配;步骤3.12)计算二分图最佳匹配中的边的加权平均值;步骤3.13)获取网站签名的相似度;步骤4)输出钓鱼检测的结果:步骤4.1)判断相似度是否大于阈值,如果大于,则可疑网站为钓鱼网站,并输出其目标网站,否则,输出:“可疑网站是合法网站”。...
【技术特征摘要】
【专利技术属性】
技术研发人员:张卫丰,滕雯静,张迎周,周国强,王子元,周国富,钱小燕,许碧欢,陆柳敏,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。