一种多特征融合的钓鱼网页检测方法技术

技术编号:15519443 阅读:101 留言:0更新日期:2017-06-04 09:17
本发明专利技术请求保护一种多特征融合的钓鱼网页检测方法,包括训练过程和检测过程两个部分。结合半监督学习tri‑training方法整合了钓鱼网页特点的三个视图,主要解决了现有钓鱼网页检测方法大多需要通过大量的标注数据利用监督学习来进行的分类模型训练的问题。该方法主要结合协同训练算法,从网页URL特征、网页页面信息特征和网页搜索信息特征出发,将多视图,多分类器的思想运用到钓鱼网页检测中,通过不同分类器的协同训练学习,达到减少总体人工标注训练样本数和及时识别钓鱼网页的目的。

【技术实现步骤摘要】
一种多特征融合的钓鱼网页检测方法
本专利技术涉及一种钓鱼网页检测的方法,主要从URL、页面和搜索信息三个特征视图结合tri-training半监督学习方法对钓鱼网页进行匹配和识别,属于信息安全与数据挖掘的交叉领域。
技术介绍
在网络快速发展的今天,电子商务兴起、互联网支付流行,互联网商务成为越来越多的人生活和工作中不可或缺的一部分。然而,正是在互联网支付发展迅猛的背景下,互联网支付的安全形势也日趋严重。其中网络钓鱼攻击,简称网络钓鱼,是形式繁多的互联网欺诈中危害最严重、成功率最高的一种在线身份伪造式攻击。犯罪分子主要利用视觉效果对特定网页进行模仿,生成难以区分的钓鱼页面,并利用电子邮件或即时通讯信息,伪装成银行、金融机构或者大型商务网站发出的通知,来诱骗用户登录假冒网站,从而获取具有经济价值的用户机密信息和敏感数据(如:口令、密码、邮箱信息或银行卡信息等)。在现有的钓鱼网页检测领域中,钓鱼网页检测主要有三种检测方式:一是黑名单库来识别,将提交的URL按规定的方式和黑名单库或钓鱼网站知识库进行匹配,如果匹配成功则认为该链接是钓鱼网站链接;二是数据挖掘的方法来识别,根据已有的钓鱼网页对钓鱼网页异常特征进行提取,通过机器学习方法进行模型构建,并利用数据集进行训练,最终依据分类的结果来判别是否为钓鱼网站;三是相似度的方法来识别,通过设定相似度阈值,然后通过对比钓鱼网站与受保护网站的视觉相似性,观察其是否超过设定的阈值从而来判断是否是钓鱼网站。由于钓鱼网页的生命周期较短,平均存活时间只有62小时,基于“快速通量”方法建立的钓鱼网站平均存活也只有196小时,如何解决钓鱼网页的及时识别问题是电子商务发展过程中亟待解决的问题。现有的钓鱼网页检测技术主要是以黑名单机制和机器学习技术为主,在模型构建中依然存在一些问题:(1)基于黑名单检测机制是当前安全浏览器防护的主要手段,但由黑名单库的建立主要依托启发式学习、人工举报以及人工校验来确定需要耗费一定的人力成本,易受到主观因素的影响,其次黑名单库在更新上也具有一定的滞后性,难以满足大规模钓鱼下及时检测的需求;(2)现有的基于机器学习的钓鱼网页检测方法大多利用监督学习方法来建立分类模型的,监督学习方法只能利用已标记数据进行训练,为了保证学习的泛化性,需要利用大量的标注数据来进行训练,由于钓鱼网站生存周期较短标记数据的获取比较困难且耗时耗力。
技术实现思路
为了克服上述现有技术中存在的缺陷,本专利技术结合半监督学习方法提供了一种多特征融合的钓鱼网页检测方法,通过借鉴协同训练方法,将多视图、多分类器的思想和钓鱼网页识别相结合,将钓鱼网页按URL、页面内容以及搜索信息的特征进行分类,提取出三种不同的视图并通过多分类器协同训练学习,达到减少总体人工标注训练样本数和及时识别钓鱼网页的目的。为了实现上述目的本专利技术采用如下技术方案:一种多特征融合的钓鱼网页检测方法,包括训练过程和检测过程,其中所述训练过程为:S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,从特征数据中随机抽取少量数据作为标记数据样本反例L1,其余部分作为无标记数据样本反例U1。S2:从非钓鱼网页URL数据集中收集特征数据,通过Alexa获取排名靠前的合法网页的特征数据X,形成标记数据样本正例L2,其余部分作为无标记数据样本正例U2,根据S1和S2得到标记训练数据集L,L=L1+L2,和无标记训练数据集U,U=U1+U2。S3:从L中通过BootstrapSampling方法进行重复采样获得三个训练集合B1、B2和B3。S4:从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3。S5:针对每一个初始化分类器进行以下操作:在h1、h2和h3中任选择一个初始化分类器作为主分类器(假设为h1),分别将另外2个分类器(h2和h3)作为辅助分类器,分别在无标记训练数据集U进行预测得到标记结果U2和U3。S6:将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集,用来重新训练主分类器(h1)。S7:重复S5操作,通过不断迭代更新,直到三个分类器对无标记训练数据集都不再变化为止。检测过程为:拦截用户请求的URL信息,进行Form表单检测,返回检测结果,如果存在危险,则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3进行判断。网页URL特征提取:统一资源定位符URL在钓鱼网页的伪装上有着至关重要的作用,也是基于URL的钓鱼网页检测及分析中使用最多的特征之一。URL主要由<protocol>://<subdomain>.<primarydomain>.<TLD>/<path>这5部分所组成,其中,<protocol>表示协议;<subdomain>表示子域名;<primarydomain>表示主域名;<TLD>代表顶级域名;域名由<primarydomain>和<TLD>两部分组成;<path>为该URL的路径部分。通过对上述这5部分的钓鱼网页URL分析,在一定程度上可以有效的实现对钓鱼网页进行检测。上述URL特征向量X1为:X1=[URL的路径级数,URL中dot数,URL的编码格式,URL字节数,IP地址,敏感词汇,URL中长词数,TLD的位置和数量]。(1)URL的路径级数:钓鱼者通常会设置较多的路径级数让来混淆访问者,一般来说合法网页路径级数小于5,而钓鱼网页的URL的路径级数往往超过5或更多。(2)URL中dot数:检测URL中包含“.”的个数,通常来说非法的网站包括的“.”的数量5个或更多。(3)URL的编码格式:部分钓鱼网页会利用编码转化,将URL中的内容转化为16进制或8进制,从而达到了躲避用户识别目的。(4)URL字节数:钓鱼攻击者为了迷惑访问用户一般会在URL中加入一些商标词汇或迷惑性的关键词,从而导致其URL总体长于合法网页的URL,已有的研究表明钓鱼网站的URL总体长度一般会超过50个字节,有的甚至达到两百多个字节,而正常网站的URL一般在20个字节左右。(5)IP地址:为了逃避URL检测,一些钓鱼攻击者使用IP地址来代替域名,达到躲避检测的目的,但由于合法网页几乎很少出现直接IP访问的形式。(6)敏感词汇:为了迷惑用户,钓鱼攻击者会在URL中加入一些敏感的词汇,分别是“secure”,“account”,“webscr”,“login”,“ebay”,“sign”,“banking”,“confirm”。(7)URL中长词数:无意义的长词是钓鱼网页的另一个特点,钓鱼攻击者往往采用随机组合的长字符串或几个相关品牌的单词组合在一起实现对用户的判断干扰。(8)TLD的位置和数量:为了伪装成合法网址,钓鱼攻击者常常将需要仿冒的域名加入现有的URL中来混淆用户,这也造成了URL中TLD往往会出现多个的现象。网页页面是钓鱼攻击手段的核心所在,但钓鱼网页生命周期较短,钓鱼攻击者仿冒的钓鱼页面的重心往往偏向于页面视觉相似的上,而忽略了网页本文档来自技高网
...
一种多特征融合的钓鱼网页检测方法

【技术保护点】
一种多特征融合的钓鱼网页检测方法,其特征在于,包括训练过程和检测过程,其中所述训练过程为:S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X

【技术特征摘要】
1.一种多特征融合的钓鱼网页检测方法,其特征在于,包括训练过程和检测过程,其中所述训练过程为:S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,从特征数据中随机抽取少量数据作为标记数据样本反例L1,其余部分作为无标记数据样本反例U1;S2:从非钓鱼网页URL数据集中收集特征数据,通过Alexa获取排名靠前的合法网页的特征数据X,形成标记数据样本正例L2,其余部分作为无标记数据样本正例U2,根据S1和S2得到标记训练数据集L,L=L1+L2,和无标记训练数据集U,U=U1+U2;S3:从L中通过BootstrapSampling方法进行重复采样获得三个训练集合B1、B2和B3;S4:从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3;S5:针对每一个初始化分类器进行以下操作:在h1、h2和h3中任选择一个初始化分类器作为主分类器,分别将另外2个分类器作为辅助分类器,分别在无标记训练数据集U进行预测得到标记结果U2和U3;S6:将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集,用来重新训练主分类器;S7:重复S5操作,通过不断迭代更新,直到三个分类器对无标记训练数据集都不再变化为止;检测过程为:拦截用户请求的URL信息,进行Form表单检测,返回检测结果,如果存在危险,则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3进行判断。2.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述URL特征向量X1为:X1=[URL的路径级数,URL中dot数,URL的编码格式,URL字节数,IP地址,敏感词汇,URL中长词数,TLD的位置和数量]。3.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述页面信息特征向量X2为:X2=[可疑的Form表单,可疑的action域,页面的链接信息,页面框架或JS跳转]。4.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述搜索信息特征向量X3为:X3=[域名日期,PageRank值,BackLink值,...

【专利技术属性】
技术研发人员:徐光侠宋洋洋高郭威刘宴兵刘俊齐锦郑爽王天羿
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1