基于自适应异构多分类模型的钓鱼网站检测方法和系统技术方案

技术编号：19703014 阅读：31 留言：0更新日期：2018-12-08 14:24

本发明专利技术提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型，对多分类模型进行训练，该模型输入是各基分类算法的输入，输出是样本标签，每个基分类算法从样本记录中提取相应的特征作为输入；采用机器学习算法求解模型参数，并用测试集进行测试和优化，最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明专利技术实现对钓鱼网站实时检测，并提高了钓鱼网站检测的准确性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
基于自适应异构多分类模型的钓鱼网站检测方法和系统
本专利技术涉及计算机网络安全领域，具体涉及一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。
技术介绍
随着互联网技术的蓬勃发展，网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为，它以互联网为载体，通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息，被欺骗的用户会产生不同程度的个人信息泄漏，继而导致经济损失。如何快速准确地检测钓鱼网站成为Web(全球广域网)信息安全研究热点。目前已公开的钓鱼网站检测技术主要包括以下几种方式：(1)基于黑白名单机制的检测技术：作为一种实用的核心技术，黑白名单具有高效准确的优点。通过对域名的判定，可以快速定位钓鱼网站，是最常用的实现技术之一[1]。(2)基于视觉相似度的检测技术：曹久新等人提出了一个基于嵌套EMD(EarthMover’sDistance)的网页相似度判定算法，对Web图像进行分割，利用分割后的子图特征来构建网页的ARG(AttributedRelationalGraph)。计算得到不同的AGR属性的距离后，通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度，进而实现对钓鱼网站的高精度检测[2]。李喧等人基于EMD算法，利用视觉上的相似度来判别钓鱼网站。该种算法采用网页中像素相似度的比较所得的结果作为判断钓鱼网站的依据[3]。(3)基于贝叶斯算法的检测技术：金庆等人基于规则的贝叶斯算法，制定了一系列的匹配钓鱼网站的规则。随后为每个规则分配其相应的权值，计算其修正系数，得出被测网站是钓鱼网站的概率。进而可通过概率阈值判断其是否为钓鱼网站[4][...

【技术保护点】
1.一种基于自适应异构多分类模型的钓鱼网站检测方法，其特征在于，所述方法包括：步骤1，对相同类别的钓鱼网站样本集D，采用留一法交叉验证进行训练集和测试集的分类；设第j个训练集表示为Dj，对应的第j个测试集表示为

【技术特征摘要】
1.一种基于自适应异构多分类模型的钓鱼网站检测方法，其特征在于，所述方法包括：步骤1，对相同类别的钓鱼网站样本集D，采用留一法交叉验证进行训练集和测试集的分类；设第j个训练集表示为Dj，对应的第j个测试集表示为每个样本包含样本记录和样本标签；样本记录中包含网站的URL和网页信息，样本标签用于标记是否为钓鱼网站；j为正整数；步骤2，通过线性加成构建自适应异构多分类模型H，如下所示：其中，T为基分类算法的个数，hi为第i种基分类算法，ωi为第i种基分类算法的权重参数，为调整因子，x表示样本记录；步骤3，多分类模型H的输入是各基分类算法的输入，输出是样本标签；对于训练集Dj，从每个样本的样本记录中提取每个基分类算法相应的特征作为输入；所述的基分类算法表征为线性函数，各分类算法的参数为独立同分布；步骤4，基于训练集Dj，采用机器学习算法对各基分类算法的参数以及多分类模型H中的进行训练和参数求解；步骤5，在测试集上对多分类模型H进行测试和优化，直到各基分类算法的参数和多分类模型H中的参数收敛，对多分类模型H的机器学习算法结束；步骤6，由最终得到的各基分类算法的参数和多分类模型H中的参数得到该类钓鱼网站的检测模型H’；步骤7，获取待检测网站的记录，包括网站的URL和网页信息，输入检测模型H’判断是否为钓鱼网站。2.根据权利要求1所述的方法，其特征在于，所述的样本集D的规模不能低于100。3.根据权利要求1或2所述的方法，其特征在于，所述的步骤1中，训练集和测试集表示如下：第j个训练集Dj＝{(x1,y1),(x2,y2),…,(xm,ym)}，1≤j≤n,1<m<n；对应的第j个测试集其中，n为D中样本个数，m为Dj中的样本个数，D/Dj表示从集合D中去除Dj；第i个样本(xi,yi)中包含第i个样本的记录xi和标签yi。4.根据权利要求1所述的方法，其特征在于，所述的步骤4中，采用极大似然估计法求解各基分类算法的参数，采用最大期望算法对多分类模型H中的参数进行迭代求解。5.根据权利要求1所述的方法，其特征在于，所述的步骤5中，当多分类模型H中的参数无法收敛时，修正样本标签，更新训练集样本，重新执行步骤4的训练过程。6.一种基于自适应异构多分类模型的钓鱼网站...

【专利技术属性】
技术研发人员：臧天宁，强倩，杜飞，周渊，
申请(专利权)人：国家计算机网络与信息安全管理中心，北京锐驰信安技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人