一种多特征融合的钓鱼网页检测方法技术

技术编号：15519443 阅读：101 留言：0更新日期：2017-06-04 09:17

本发明专利技术请求保护一种多特征融合的钓鱼网页检测方法，包括训练过程和检测过程两个部分。结合半监督学习tri‑training方法整合了钓鱼网页特点的三个视图，主要解决了现有钓鱼网页检测方法大多需要通过大量的标注数据利用监督学习来进行的分类模型训练的问题。该方法主要结合协同训练算法，从网页URL特征、网页页面信息特征和网页搜索信息特征出发，将多视图，多分类器的思想运用到钓鱼网页检测中，通过不同分类器的协同训练学习，达到减少总体人工标注训练样本数和及时识别钓鱼网页的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种多特征融合的钓鱼网页检测方法
本专利技术涉及一种钓鱼网页检测的方法，主要从URL、页面和搜索信息三个特征视图结合tri-training半监督学习方法对钓鱼网页进行匹配和识别，属于信息安全与数据挖掘的交叉领域。
技术介绍
在网络快速发展的今天，电子商务兴起、互联网支付流行，互联网商务成为越来越多的人生活和工作中不可或缺的一部分。然而，正是在互联网支付发展迅猛的背景下，互联网支付的安全形势也日趋严重。其中网络钓鱼攻击，简称网络钓鱼，是形式繁多的互联网欺诈中危害最严重、成功率最高的一种在线身份伪造式攻击。犯罪分子主要利用视觉效果对特定网页进行模仿，生成难以区分的钓鱼页面，并利用电子邮件或即时通讯信息，伪装成银行、金融机构或者大型商务网站发出的通知，来诱骗用户登录假冒网站，从而获取具有经济价值的用户机密信息和敏感数据(如：口令、密码、邮箱信息或银行卡信息等)。在现有的钓鱼网页检测领域中，钓鱼网页检测主要有三种检测方式：一是黑名单库来识别，将提交的URL按规定的方式和黑名单库或钓鱼网站知识库进行匹配，如果匹配成功则认为该链接是钓鱼网站链接；二是数据挖掘的方法来识别，根据已有的钓鱼网页对钓鱼网页异常特征进行提取，通过机器学习方法进行模型构建，并利用数据集进行训练，最终依据分类的结果来判别是否为钓鱼网站；三是相似度的方法来识别，通过设定相似度阈值，然后通过对比钓鱼网站与受保护网站的视觉相似性，观察其是否超过设定的阈值从而来判断是否是钓鱼网站。由于钓鱼网页的生命周期较短，平均存活时间只有62小时，基于“快速通量”方法建立的钓鱼网站平均存活也只有196小时，如何解决钓...
一种多特征融合的钓鱼网页检测方法

【技术保护点】
一种多特征融合的钓鱼网页检测方法，其特征在于，包括训练过程和检测过程，其中所述训练过程为：S1：根据钓鱼网页URL数据集收集特征数据，包括URL特征向量X

【技术特征摘要】
1.一种多特征融合的钓鱼网页检测方法，其特征在于，包括训练过程和检测过程，其中所述训练过程为：S1：根据钓鱼网页URL数据集收集特征数据，包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，从特征数据中随机抽取少量数据作为标记数据样本反例L1，其余部分作为无标记数据样本反例U1；S2：从非钓鱼网页URL数据集中收集特征数据，通过Alexa获取排名靠前的合法网页的特征数据X，形成标记数据样本正例L2，其余部分作为无标记数据样本正例U2，根据S1和S2得到标记训练数据集L，L＝L1+L2，和无标记训练数据集U，U＝U1+U2；S3：从L中通过BootstrapSampling方法进行重复采样获得三个训练集合B1、B2和B3；S4：从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3；S5：针对每一个初始化分类器进行以下操作：在h1、h2和h3中任选择一个初始化分类器作为主分类器，分别将另外2个分类器作为辅助分类器，分别在无标记训练数据集U进行预测得到标记结果U2和U3；S6：将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集，用来重新训练主分类器；S7：重复S5操作，通过不断迭代更新，直到三个分类器对无标记训练数据集都不再变化为止；检测过程为：拦截用户请求的URL信息，进行Form表单检测，返回检测结果，如果存在危险，则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3，利用h1、h2和h3进行判断。2.根据权利要求1所述一种多特征融合的钓鱼网页检测方法，其特征在于：所述URL特征向量X1为：X1＝[URL的路径级数，URL中dot数，URL的编码格式，URL字节数，IP地址，敏感词汇，URL中长词数，TLD的位置和数量]。3.根据权利要求1所述一种多特征融合的钓鱼网页检测方法，其特征在于：所述页面信息特征向量X2为：X2＝[可疑的Form表单，可疑的action域，页面的链接信息，页面框架或JS跳转]。4.根据权利要求1所述一种多特征融合的钓鱼网页检测方法，其特征在于：所述搜索信息特征向量X3为：X3＝[域名日期，PageRank值，BackLink值，...

【专利技术属性】
技术研发人员：徐光侠，宋洋洋，高郭威，刘宴兵，刘俊，齐锦，郑爽，王天羿，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人