基于自适应异构多分类模型的钓鱼网站检测方法和系统技术方案

技术编号:19703014 阅读:31 留言:0更新日期:2018-12-08 14:24
本发明专利技术提供了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。所述方法对多种基分类算法通过线性加成构建自适应异构多分类模型,对多分类模型进行训练,该模型输入是各基分类算法的输入,输出是样本标签,每个基分类算法从样本记录中提取相应的特征作为输入;采用机器学习算法求解模型参数,并用测试集进行测试和优化,最终得到该类钓鱼网站的检测模型。所述系统包括域名词素特征分类器、主题索引特征分类器、内容相似性特征分类器、结构样式特征分类器、视觉规则特征分类器、线性加成训练模块、集成分类器、训练数据集管理模块和检测及告警模块。本发明专利技术实现对钓鱼网站实时检测,并提高了钓鱼网站检测的准确性和稳定性。

【技术实现步骤摘要】
基于自适应异构多分类模型的钓鱼网站检测方法和系统
本专利技术涉及计算机网络安全领域,具体涉及一种基于自适应异构多分类模型的钓鱼网站检测方法和系统。
技术介绍
随着互联网技术的蓬勃发展,网络安全问题层出不穷。网络钓鱼是一种典型的在线欺诈行为,它以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确地检测钓鱼网站成为Web(全球广域网)信息安全研究热点。目前已公开的钓鱼网站检测技术主要包括以下几种方式:(1)基于黑白名单机制的检测技术:作为一种实用的核心技术,黑白名单具有高效准确的优点。通过对域名的判定,可以快速定位钓鱼网站,是最常用的实现技术之一[1]。(2)基于视觉相似度的检测技术:曹久新等人提出了一个基于嵌套EMD(EarthMover’sDistance)的网页相似度判定算法,对Web图像进行分割,利用分割后的子图特征来构建网页的ARG(AttributedRelationalGraph)。计算得到不同的AGR属性的距离后,通过嵌套EMD方法得到钓鱼网站与受保护网站网页的相似度,进而实现对钓鱼网站的高精度检测[2]。李喧等人基于EMD算法,利用视觉上的相似度来判别钓鱼网站。该种算法采用网页中像素相似度的比较所得的结果作为判断钓鱼网站的依据[3]。(3)基于贝叶斯算法的检测技术:金庆等人基于规则的贝叶斯算法,制定了一系列的匹配钓鱼网站的规则。随后为每个规则分配其相应的权值,计算其修正系数,得出被测网站是钓鱼网站的概率。进而可通过概率阈值判断其是否为钓鱼网站[4][5]。庄蔚蔚等人对网页标签标题内容,网站中关键字信息、页面描述信息、图片链接以及网站版权信息等8个特征,利用扩展贝叶斯算法化及其改进后的支撑向量机来进行分类集成,构建出一种能够对网络钓鱼攻击进行智能检测的系统[6]。(4)基于文档结构的检测技术:郭敏哲等人分析了Web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征,来判断该网站是否为钓鱼网站。该算法有效地滤除了网站中的Phishing(网络仿冒)页面,强有力的制止了网络钓鱼者的恶意钩鱼攻击[7]。(5)基于深度学习的钓鱼网站检测技术:许珑于结合深度学习的技术,提出了多层结构的DBN-KNN模型,将其运用到钓鱼网站的特征识别中,识别出钓鱼网站[8]。(6)其它类型的检测技术:黄华军等人提出基于半脆弱水印的网络钓鱼主动防御[9]以及基于异常特征钓鱼URL检测算法[10];张健毅等人提出一种文本语义理解的网络钩鱼检查算法[11];其余防御措施包括针对web-mail邮箱的跨站网络钓鱼攻击的研巧、基于云计算的URL过滤[12]、SVM学习算法[13]等。在以上技术中,基于黑白名单的检测方法时效性较差、名单范围也存在不足;基于视觉相似度的检测技术算法复杂,检测消耗的时间较长,不能适用于海量URL(UniformResoureLocator:统一资源定位器)的在线实时检测;基于贝叶斯算法的检测技术在鲁棒性和泛化性能上不是很理想;基于文档结构的检测技术存在特征覆盖不全面的问题,漏报较多;基于深度学习的钓鱼网站检测技术在特征识别上有优势,但特征的稳定性较差,容易受到样本污染的干扰。参考文献:[1]HuangC.,MaS,ChenK.,UsingOne-TimePasswordstoPreventPasswordPhishingAttacks[J].JournalofNetworkandComputerApplications.2011,34(4):1292-1301.[2]曹欧新,毛波,罗军舟,等.基于嵌套EMD的钓鱼网页检测算法[J].计算机学报,2009,32(5):922-929.[3]李喧,刘董.以视觉相似为基础的Phishing检测方法[J].清华大学学报(自然科学版),2009,49(1):146-148.[4]ZhangH.,LiuG.,ChowT.W.S..etal.TextualandVisualContent-BasedAnti-Phishing:ABaysianApproach[J].IEEETransactionsonNeuralNetworks.2011,22(10):1532-1546.[5]金庆,吴国新,李丹,等.用基于规则的贝叶斯算法实现网络钓鱼的过滤[R].湖南:第五届中国信息和通信技术安全学术会议,2007,372-378.[6]庄蔚蔚,叶艳芳,李涛,等.基于分类集成的钓鱼网站智能检测系统[J].系统工程理论与实践,2011,31(10):2008-2020.[7]郭敏哲,袁津生,王雅超,等.网络钓鱼Web页面检测算法机[J].计算机工程,2008,34(20):161-163.[8]许珑于.基于深度学习的钓鱼网站检测技术的研究[D].电子科技大学,2017.[9]殷水军,刘嘉永,刘亮.针对Web-mail娜箱的跨站网络钓鱼攻击的研究[J].通信技术,2010,43(8):164-166.[10]HuangH.J.,WangY.J.,XieL.L..etal.AnActiveAnti-PhishingSolutionBasedonSemi-fragileWatermark[J].InformationTechnologyJournal.2013,12(1):198-203.[11]HuangH.J.,QianL.,WangY.J..ASVM-BasedTechniquetoDetectPhishingURLs[J].InformationTechnologyJournal.2012,11(7):921-925.[12]ZhangH.,LiuG.,ChowT.W.S..etal.TextualandVisualContent-BasedAnti-Phishing:ABaysianApproach[J].IEEETransactionsonNeuralNetworks.2011,22(10):1532-1546.[13]ShengS.,WardmanB.,WarnerG..etal.AnEmpiricalAnalysisofPhishingBlacklists[C].In:Proc.ofthesixthConferenceonEmailandAnti-Spam.2009:1-10.
技术实现思路
针对上述已有方法存在的问题,本专利技术公开了一种基于自适应异构多分类模型的钓鱼网站检测方法和系统,用于对钓鱼网站进行实时检测,并具有较高准确性和稳定性。本专利技术公开了一种基于自适应异构多分类模型(AHMC)的钓鱼网站检测方法,该方法包括自适应异构多分类模型的学习和钓鱼网站的检测,具体步骤包括:步骤1,对某一类别的钓鱼网站样本集D,|D|=n,采用留一法交叉验证进行训练集和测试集的分类。设第j个训练集表示为Dj,对应的第j个测试集表示为j为正整数。每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站。步骤2,通过线性加成构建自适应异构多分类模型H,如下:其中ωi为权重参数,为调整因子其中,T为基分类算法的个数。hi为第i种基本文档来自技高网
...

【技术保护点】
1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为

【技术特征摘要】
1.一种基于自适应异构多分类模型的钓鱼网站检测方法,其特征在于,所述方法包括:步骤1,对相同类别的钓鱼网站样本集D,采用留一法交叉验证进行训练集和测试集的分类;设第j个训练集表示为Dj,对应的第j个测试集表示为每个样本包含样本记录和样本标签;样本记录中包含网站的URL和网页信息,样本标签用于标记是否为钓鱼网站;j为正整数;步骤2,通过线性加成构建自适应异构多分类模型H,如下所示:其中,T为基分类算法的个数,hi为第i种基分类算法,ωi为第i种基分类算法的权重参数,为调整因子,x表示样本记录;步骤3,多分类模型H的输入是各基分类算法的输入,输出是样本标签;对于训练集Dj,从每个样本的样本记录中提取每个基分类算法相应的特征作为输入;所述的基分类算法表征为线性函数,各分类算法的参数为独立同分布;步骤4,基于训练集Dj,采用机器学习算法对各基分类算法的参数以及多分类模型H中的进行训练和参数求解;步骤5,在测试集上对多分类模型H进行测试和优化,直到各基分类算法的参数和多分类模型H中的参数收敛,对多分类模型H的机器学习算法结束;步骤6,由最终得到的各基分类算法的参数和多分类模型H中的参数得到该类钓鱼网站的检测模型H’;步骤7,获取待检测网站的记录,包括网站的URL和网页信息,输入检测模型H’判断是否为钓鱼网站。2.根据权利要求1所述的方法,其特征在于,所述的样本集D的规模不能低于100。3.根据权利要求1或2所述的方法,其特征在于,所述的步骤1中,训练集和测试集表示如下:第j个训练集Dj={(x1,y1),(x2,y2),…,(xm,ym)},1≤j≤n,1<m<n;对应的第j个测试集其中,n为D中样本个数,m为Dj中的样本个数,D/Dj表示从集合D中去除Dj;第i个样本(xi,yi)中包含第i个样本的记录xi和标签yi。4.根据权利要求1所述的方法,其特征在于,所述的步骤4中,采用极大似然估计法求解各基分类算法的参数,采用最大期望算法对多分类模型H中的参数进行迭代求解。5.根据权利要求1所述的方法,其特征在于,所述的步骤5中,当多分类模型H中的参数无法收敛时,修正样本标签,更新训练集样本,重新执行步骤4的训练过程。6.一种基于自适应异构多分类模型的钓鱼网站...

【专利技术属性】
技术研发人员:臧天宁强倩杜飞周渊
申请(专利权)人:国家计算机网络与信息安全管理中心北京锐驰信安技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1