恶意网页识别模型、识别模型建立方法、识别方法及系统技术方案

技术编号:24456490 阅读:11 留言:0更新日期:2020-06-10 15:42
本发明专利技术属于恶意网页识别技术领域,具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统,在通过爬虫工具采集完恶意网页内容数据样本和正常网页内容数据样本后,依次使用SMOTE算法、GAN算法对恶意网页内容数据样本进行扩增,使其与正常网页内容数据样本数量均衡,之后利用恶意网页内容数据样本、正常网页内容数据样本训练5个分类器,生成5个模型后进行融合,并对融合后各模型的权重进行调整,得到最终的恶意网页识别模型,本发明专利技术在恶意网页样本数据与正常网页样本数据能够基本均衡的情况下建立模型,准确率高;并且能够避免用单一模型进行结果输出带来的误差,同样能够提高准确率。

Malicious web page identification model, identification model building method, identification method and system

【技术实现步骤摘要】
恶意网页识别模型、识别模型建立方法、识别方法及系统
本专利技术属于恶意网页识别
,具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统。
技术介绍
黑名单技术是恶意网址发现算法中最传统、最经典的技术,网页黑名单中包含已知的恶意网址列表,通常是由具有公信力的网站根据用户举报、网页内容分析等手段生成并发布。当用户浏览某一网址时,基于网页黑名单的数据库就开始进行搜索。如果这个网址在网页黑名单库中,它就会被认为是恶意网址,浏览器会出现警告信息;否则认为此网址是正常网址。在网址生成算法成熟的现在,每天都会有大量的恶意网址出现,黑名单技术不能够及时更新所有的恶意网址。因此,黑名单技术只能给与用户最低程度的保护,并不能及时检测出恶意网站,阻断用户对恶意网站的访问。虽然黑名单技术有着漏判严重、更新时效性低等缺点,但是其简单易用,因此仍是许多杀毒系统常用的技术之一。启发式算法是对黑名单技术的一种补充算法,其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。此算法可以依靠现有的启发式规则识别(已有的以及部分之前未出现的)恶意网页,而不需要依靠黑名单的精确匹配来完成恶意网页识别。但是,这种方法只能为有限数量的相似恶意网页而设计,并不能针对所有的恶意网页,而且恶意网页要绕过此类的模糊匹配技术并不难。Moshchuk等人提出了一种更具体的启发式方法,这些方法通过分析网页的执行动态,比如并不寻常的过程创建、频繁的重定向等寻找恶意网页的签名。但是启发式算法有比如误报率高以及规则更新难等一些众所周知的缺点。机器学习算法是目前研究的热点之一,此类算法通过分析网页URL以及网页信息,提取域名的重要特征表示,并训练出一个预测模型。目前用于恶意网页识别的机器学习算法主要分为无监督算法和有监督算法。有监督算法也叫分类算法,此类算法需要大量的已标注恶意/良性的网页地址作为训练集,抽取网页特征,然后利用现有的分类算法(SVM、C5.0、决策树、逻辑回归等)进行恶意网页识别。有监督学习算法首先要对所有标注URL的信息进行特征提取(域名特征、注册信息、生存时间等),然后从中选择出能够区别恶意/良性URL的特征,之后再利用分类算法进行建模分析。此算法的准确率较高而且误报率相对较低,但是却对标注数据以及特征工程比较敏感,标注数据的准确率以及选择使用的特征会严重影响算法的准确率和效率。无监督机器学习方法又称聚类方法。此类方法的具体分类过程主要由特征提取、聚类、簇标记和网页判别等步骤组成。主要做法是首先将URL数据集划分为若干簇,使得同一簇的数据对象之间相似度较高,而不同簇的数据对象之间的相似度较低。然后通过构造和标记数据集中的簇来区分恶意网页和良性网页。但由于恶意网页数据集少,大部分识别恶意网页的方法都基于学习正常的网页内容数据,做单分类的检测,建立单分类模型,如有恶意网页数据送入模型,即可识别是否属于正常网页,如果不属于,即识别为恶意网页。
技术实现思路
为了解决上述技术问题,本专利技术提供一种恶意网页识别模型、识别模型建立方法、识别方法及系统,解决现有恶意网页识别方法中,恶意网页数据少,只能通过学习正常网络数据模型,从而使得模型分类结果不准确的问题。本专利技术是这样实现的,提供一种恶意网页识别模型的建立方法,包括如下步骤:1)使用爬虫工具在网络中进行爬虫,将爬取到的网页内容数据样本人为鉴别,分为恶意网页内容数据样本和正常网页内容数据样本;2)基于恶意网页内容数据的页面内容特征,构建恶意网页的网页特征,基于正常网页内容数据的页面内容特征,构建正常网页的网页特征;3)使用SMOTE算法使恶意网页内容数据样本翻倍;4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡;5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分,即训练集、测试集和验证集;6)利用训练集和测试集训练5个分类器,即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN,利用5个分类器分别循环迭代,保留每个分类器F1值最高的,即对应生成5个模型,分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn,分别设每个模型的初始权重为1/5,使用5个模型对训练分类器过程中产生的新的数据集进行预测,将预测结果使用下式形成初始融合模型:1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*mdl_logistic.predict+1/5*mdl_wknn.predict;7)利用验证集的数据样本,对初始融合模型进行权重调节,得到最高准确率的识别模型,用于恶意网页的识别。进一步地,所述步骤2)中,根据如下页面内容特征来构建恶意网页的网页特征和正常网页的网页特征:文档代码内执行程序的数量、隐藏的可执行远程代码出现的次数、不匹配的link标签出现的次数、页面中含有链接的数量、网页中的图片内容是否具有黄色暴力赌博游戏的内容、image标签数量、script标签数量、embed标签数量、object标签数量、window.open函数个数、document.location函数个数、document.cookie函数个数、windows.location函数个数;每个恶意网页内容数据样本由恶意网页的网页特征代表,每个正常网页内容数据样本由正常网页的网页特征代表。进一步地,所述步骤3)中,使用SMOTE算法使恶意网页内容数据样本翻倍的方法为:301)设恶意网页内容数据样本数量为T,取恶意网页内容数据的1个样本,设为i,样本i用特征向量xi表示,i∈{1,……,T}:302)从T个样本中找到样本xi的k个近邻,表示为xi(near),near∈{1,……,k};303)从k个近邻中随机选择一个样本xi(nn),再生成一个0-1之间的随机数ζ1,合成一个新样本xi1,xi1=xi+ζ1*(xi(nn)-xi);304)将步骤303)重复进行N次,形成N个新样本,xinew,new∈{1,……,N};305)对全部T个样本进行步骤302)至步骤304),得到NT个新样本,即对T个样本翻了N倍。进一步地,所述步骤4)中,采用WGAN-GP网络对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡。进一步地,所述步骤5)中,训练集、测试集和验证集的比例分别为70%、20%和10%。进一步地,所述步骤7)中,对初始融合模型进行权重调节的方法为:将步骤5)中的验证集数据分别输入到步骤6)训练的5个分类器的模型中,进行分类,得到五个准确率,按高低排序,排序最高的分类器权重值增加0.1,相应的排序最低的分类器减去0.1,循环迭代30次,输出权重调节后最高准确率的模型,用本文档来自技高网
...

【技术保护点】
1.一种恶意网页识别模型的建立方法,其特征在于,包括如下步骤:/n1)使用爬虫工具在网络中进行爬虫,将爬取到的网页内容数据样本人为鉴别,分为恶意网页内容数据样本和正常网页内容数据样本;/n2)基于恶意网页内容数据的页面内容特征,构建恶意网页的网页特征,基于正常网页内容数据的页面内容特征,构建正常网页的网页特征;/n3)使用SMOTE算法使恶意网页内容数据样本翻倍;/n4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡;/n5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分,即训练集、测试集和验证集;/n6)利用训练集和测试集训练5个分类器,即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN,利用5个分类器分别循环迭代,保留每个分类器F1值最高的,即对应生成5个模型,分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn,分别设每个模型的初始权重为1/5,使用5个模型对训练分类器过程中产生的新的数据集进行预测,将预测结果使用下式形成初始融合模型:/n1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*/nmdl_logistic.predict+1/5*mdl_wknn.predict;/n7)利用验证集的数据样本,对初始融合模型进行权重调节,得到最高准确率的识别模型,用于恶意网页的识别。/n...

【技术特征摘要】
1.一种恶意网页识别模型的建立方法,其特征在于,包括如下步骤:
1)使用爬虫工具在网络中进行爬虫,将爬取到的网页内容数据样本人为鉴别,分为恶意网页内容数据样本和正常网页内容数据样本;
2)基于恶意网页内容数据的页面内容特征,构建恶意网页的网页特征,基于正常网页内容数据的页面内容特征,构建正常网页的网页特征;
3)使用SMOTE算法使恶意网页内容数据样本翻倍;
4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强,使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡;
5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分,即训练集、测试集和验证集;
6)利用训练集和测试集训练5个分类器,即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN,利用5个分类器分别循环迭代,保留每个分类器F1值最高的,即对应生成5个模型,分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn,分别设每个模型的初始权重为1/5,使用5个模型对训练分类器过程中产生的新的数据集进行预测,将预测结果使用下式形成初始融合模型:
1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*
mdl_logistic.predict+1/5*mdl_wknn.predict;
7)利用验证集的数据样本,对初始融合模型进行权重调节,得到最高准确率的识别模型,用于恶意网页的识别。


2.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤2)中,根据如下页面内容特征来构建恶意网页的网页特征和正常网页的网页特征:
文档代码内执行程序的数量、隐藏的可执行远程代码出现的次数、不匹配的link标签出现的次数、页面中含有链接的数量、网页中的图片内容是否具有黄色暴力赌博游戏的内容、image标签数量、script标签数量、embed标签数量、object标签数量、window.open函数个数、document.location函数个数、document.cookie函数个数、windows.location函数个数;
每个恶意网页内容数据样本由恶意网页的网页特征代表,每个正常网页内容数据样本由正常网页的网页特征代表。


3.如权利要求1所述的一种恶意网页识别模型的建立方法,其特征在于,所述步骤3)中,使用SMOTE算法使恶意网页内容数据样本翻倍的方法为:
301)设...

【专利技术属性】
技术研发人员:曲武
申请(专利权)人:北京金睛云华科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1