基于混合方法的三层钓鱼网站检测系统技术方案

技术编号:23318358 阅读:29 留言:0更新日期:2020-02-11 18:58
本发明专利技术公开了基于混合方法的三层钓鱼网站检测系统,此检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;第一层黑白名单、表单过滤层可以及时发现已知钓鱼网站,降低检测的成本。第二层favicon检测层能够通过faviocn识别网站的真实身份从而检测钓鱼网站,速度较快且不需消耗太多资源。第三层机器学习检测层可以准确的地对第二层判定为可疑的网站进行识别,得到更精确的判定结果。三个级别的检测既保证识别结果的准确性,又能尽可能的降低检测的时间。

Detection system of three-layer phishing website based on hybrid method

【技术实现步骤摘要】
基于混合方法的三层钓鱼网站检测系统
本专利技术涉及网站检测系统,具体为基于混合方法的三层钓鱼网站检测系统。
技术介绍
网络钓鱼是一种欺诈行为,用于通过互联网欺骗用户,发起网络钓鱼攻击的攻击者通常被称为网络钓鱼者(phishers)。国际反网络钓鱼工作组(APWG,Anti-PhishingWorkingGroup)给网络钓鱼的定义是:网络钓鱼是一种网络攻击方式,它利用社会工程学和技术手段,来窃取消费者的个人身份数据和财务账户凭证。采用社会工程手段的网络钓鱼攻击通常向用户发送欺骗性电子邮件、手机短信等,引诱用户泄露凭证信息(如用户名、密码)或下载恶意软件。而技术手段的攻击则是直接在PC上移植恶意软件(如浏览器中间者MitB,man-in-the-browser攻击),采用某些技术手段直接窃取凭证信息,如使用系统拦截用户的用户名和密码、误导用户访问伪造的网站等。网络钓鱼由于严重影响了网民利益和互联网的信誉,国际反网络钓鱼工作组(APWG,Anti-PhishingWorkingGroup)于2003年应许各个非盈利机构和行业的要求,建立了基于钓鱼网站URL的数据库并将其数据定时分发从而让各行业得以参考。而根据APWG趋势报告;近些年网络钓鱼攻击发展迅速。在2018Q1季度的网络钓鱼活动趋势报告中,2018年第一季度检测到的网络钓鱼总数为263,538。这比2017Q4观察到的180,577增加了46%,这也远远超过2017年第三季度的190,942。日益猖獗的网络钓鱼导致互联网用户遭受经济损失、身份欺诈等威胁。因此,有效地检测网络钓鱼并作出处理对网络安全有着重大意义。钓鱼检测技术通过利用钓鱼攻击所具有的某些特征对其进行识别,从而实现对网络钓鱼攻击的打击和防范。随着网络钓鱼的不断扩展,相关的钓鱼检测技术的研究也不断深入,从早期的黑名单技术到利用启发式规则和机器学习实现预测,近年来随着深度学习理论的发展,基于图像识别与基于规则的神经网络检测技术也不断被应用到网络钓鱼的检测中来。现有专利CN106357682A“一种钓鱼网站检测方法”提出了一种从网页favicon中提取文字来与黑白名单对比的方法。方法流程如图1所示,本专利的缺点:本方法需要维护数据库、频繁更新来保证时效。logo中没有文字时会检测失败。现有专利CN104166725A“一种钓鱼网站检测方法”提出了一种钓鱼网站的检测方案。在该方案中,建立待测网页对应的基于视觉内容的特征向量;将特征向量与预设的特征向量集合里的特征向量进行比对;根据比对结果判断待检测网页是否是钓鱼网站。检测流程如图2所示:本专利的缺点:1、将待检网页分块,选取分块位置等特征,这些特征在钓鱼者对网页结构微调后将会失效。2、选取DOM树等特征,在钓鱼者使用图片代替文本时将会失效。本专利技术的要解决的技术问题就是如何在数量庞大的网页中检测出钓鱼网站,以此来保证网站信息的安全。
技术实现思路
本专利技术的目的在于提供基于混合方法的三层钓鱼网站检测系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于混合方法的三层钓鱼网站检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;1、第一层黑白名单过滤层:直接通过现有的GoogleAPI钓鱼网站黑名单和Alexa网站TOP250构建黑白名单;登录表单过滤器,它将没有提交表单登录的网站分类为普通网站,因为目的是检测钓鱼网站,所以没有表单提交的页面显然不具有钓鱼属性;经过两个过滤器,如果未被过滤的网站,则会进入下面的流程,被过滤的网站会直接返回结果,这样能提升大部分常见网站的响应;当待测网站在黑名单或白名单中被匹配到,则返回检测结果,当待检测网站未在黑白名单匹配到时,若被表单过滤器过滤则输出为合法网站,否则进入下一层检测;2、第二层favicon检测层,第二层使用favicon来获取网页的身份,相比于网页的其他视觉特征,favicon更能标识一个网页的身份;并且采用GoogleSearch搜索favicon,避免了自己维护数据库而消耗大量的计算与存储资源,其流程如下:2-1、favicon提取过程:通过对应网址,即可取得网页对应的favicon;2-2、身份验证过程:此过程利用Google图像搜索和Google图片库完成,将过滤出的favicon进行Google搜索,然后在返回的匹配内容中解析出涉及的URL,这部分会返回两个网页匹配结果和一个图片匹配结果,这里只需要检索网页匹配结果即可;然后是检测阶段,在返回结果中,提取四个特征的数据,统计被检测网站二级域名在上述四个特征中出现的次数,使用训练好的GMM(高斯混合模型)对其进行线性加权归一化,得到归一化匹配得分S,根据双阈值策略将[0,S1)划定为钓鱼类别,将(S2,1]划定为合法网页类别,同时,对于[S1,S2]区间内的网页将判定为可疑类别;第二层的返回结果,对于被判定为合法或钓鱼的网站直接返回检测结果,对于被划分为可疑类别的网站放入下一层进行检测。3、第三层机器学习检测层,第三层将对在二层中还未得出结果的网站使用机器学习方法进行分类,首先提取待检测网页的特征,然后放入已训练好的Self-StructuringNN中进行分类;3-1、第三层的特征选取;选择UCI数据集的特征,此特征具有很强的代表性,基本包含了现有研究中的大部分特征考虑维度;第三层的返回结果,返回Self-StructuringNN的分类结果,即钓鱼或合法。与现有技术相比,本专利技术的有益效果是:(1)第一层黑白名单、表单过滤层可以及时发现已知钓鱼网站,降低检测的成本。(2)第二层favicon检测层能够通过faviocn识别网站的真实身份从而检测钓鱼网站,速度较快且不需消耗太多资源。(3)第三层机器学习检测层可以准确的地对第二层判定为可疑的网站进行识别,得到更精确的判定结果。(4)三个级别的检测既保证识别结果的准确性,又能尽可能的降低检测的时间。附图说明图1为
技术介绍
中现有技术一的工作流程图;图2为
技术介绍
中现有技术二的工作流程图;图3为本专利技术的系统工作流程结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参照图3所示,本基于混合方法的三层钓鱼网站检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;1、第一层黑白名单过滤层:直接通过现有的GoogleAPI钓鱼网站黑名单和Alexa网站TOP250构建黑白名单;登录表单过滤器,它将没有提交表单登录的网站分类本文档来自技高网
...

【技术保护点】
1.基于混合方法的三层钓鱼网站检测系统,其特征在于:此检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;/n(1)、第一层黑白名单过滤层:直接通过现有的Google API钓鱼网站黑名单和Alexa网站TOP250构建黑白名单;/n登录表单过滤器,它将没有提交表单登录的网站分类为普通网站,因为目的是检测钓鱼网站,所以没有表单提交的页面显然不具有钓鱼属性;/n经过两个过滤器,如果未被过滤的网站,则会进入下面的流程,被过滤的网站会直接返回结果,这样能提升大部分常见网站的响应;/n当待测网站在黑名单或白名单中被匹配到,则返回检测结果,当待检测网站未在黑白名单匹配到时,若被表单过滤器过滤则输出为合法网站,否则进入下一层检测;/n(2)、第二层favicon检测层,第二层使用favicon来获取网页的身份,相比于网页的其他视觉特征,favicon更能标识一个网页的身份;并且采用Google Search搜索favicon,避免了自己维护数据库而消耗大量的计算与存储资源,其流程如下:/n(2-1)、favicon提取过程:通过对应网址,即可取得网页对应的favicon;/n(2-2)、身份验证过程:此过程利用Google图像搜索和Google图片库完成,将过滤出的favicon进行Google搜索,然后在返回的匹配内容中解析出涉及的URL,这部分会返回两个网页匹配结果和一个图片匹配结果,这里只需要检索网页匹配结果即可;/n然后是检测阶段,在返回结果中,提取四个特征的数据,统计被检测网站二级域名在上述四个特征中出现的次数,使用训练好的GMM(高斯混合模型)对其进行线性加权归一化,得到归一化匹配得分S,根据双阈值策略将[0,S1)划定为钓鱼类别,将(S2,1]划定为合法网页类别,同时,对于[S1,S2]区间内的网页将判定为可疑类别;/n第二层的返回结果,对于被判定为合法或钓鱼的网站直接返回检测结果,对于被划分为可疑类别的网站放入下一层进行检测;/n(3)、第三层机器学习检测层,第三层将对在二层中还未得出结果的网站使用机器学习方法进行分类,首先提取待检测网页的特征,然后放入已训练好的Self-Structuring NN中进行分类;/n(3-1)、第三层的特征选取;/n选择UCI数据集的特征,此特征具有很强的代表性,基本包含了现有研究中的大部分特征考虑维度;/n第三层的返回结果,返回Self-Structuring NN的分类结果,即钓鱼或合法。/n...

【技术特征摘要】
1.基于混合方法的三层钓鱼网站检测系统,其特征在于:此检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;
(1)、第一层黑白名单过滤层:直接通过现有的GoogleAPI钓鱼网站黑名单和Alexa网站TOP250构建黑白名单;
登录表单过滤器,它将没有提交表单登录的网站分类为普通网站,因为目的是检测钓鱼网站,所以没有表单提交的页面显然不具有钓鱼属性;
经过两个过滤器,如果未被过滤的网站,则会进入下面的流程,被过滤的网站会直接返回结果,这样能提升大部分常见网站的响应;
当待测网站在黑名单或白名单中被匹配到,则返回检测结果,当待检测网站未在黑白名单匹配到时,若被表单过滤器过滤则输出为合法网站,否则进入下一层检测;
(2)、第二层favicon检测层,第二层使用favicon来获取网页的身份,相比于网页的其他视觉特征,favicon更能标识一个网页的身份;并且采用GoogleSearch搜索favicon,避免了自己维护数据库而消耗大量的计算与存储资源,其流程如下:
(2-1)、favicon提取过程:通过对应网址,即可取得网页对应的favicon;
(2-2)、身份验证过程:此过...

【专利技术属性】
技术研发人员:谷勇浩高翊睿李良训黄泽祺王翼翡郭振洋
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1