恶意网页识别模型、识别模型建立方法、识别方法及系统技术方案

技术编号：24456490 阅读：27 留言：0更新日期：2020-06-10 15:42

本发明专利技术属于恶意网页识别技术领域，具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统，在通过爬虫工具采集完恶意网页内容数据样本和正常网页内容数据样本后，依次使用SMOTE算法、GAN算法对恶意网页内容数据样本进行扩增，使其与正常网页内容数据样本数量均衡，之后利用恶意网页内容数据样本、正常网页内容数据样本训练5个分类器，生成5个模型后进行融合，并对融合后各模型的权重进行调整，得到最终的恶意网页识别模型，本发明专利技术在恶意网页样本数据与正常网页样本数据能够基本均衡的情况下建立模型，准确率高；并且能够避免用单一模型进行结果输出带来的误差，同样能够提高准确率。

Malicious web page identification model, identification model building method, identification method and system

全部详细技术资料下载

【技术实现步骤摘要】
恶意网页识别模型、识别模型建立方法、识别方法及系统
本专利技术属于恶意网页识别
，具体涉及一种恶意网页识别模型、识别模型建立方法、识别方法及系统。
技术介绍
黑名单技术是恶意网址发现算法中最传统、最经典的技术，网页黑名单中包含已知的恶意网址列表，通常是由具有公信力的网站根据用户举报、网页内容分析等手段生成并发布。当用户浏览某一网址时，基于网页黑名单的数据库就开始进行搜索。如果这个网址在网页黑名单库中，它就会被认为是恶意网址，浏览器会出现警告信息；否则认为此网址是正常网址。在网址生成算法成熟的现在，每天都会有大量的恶意网址出现，黑名单技术不能够及时更新所有的恶意网址。因此，黑名单技术只能给与用户最低程度的保护，并不能及时检测出恶意网站，阻断用户对恶意网站的访问。虽然黑名单技术有着漏判严重、更新时效性低等缺点，但是其简单易用，因此仍是许多杀毒系统常用的技术之一。启发式算法是对黑名单技术的一种补充算法，其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。此算法可以依靠现有的启发式规则识别(已有的以及部分之前未出现的)恶意网页,而不需要依靠黑名单的精确匹配来完成恶意网页识别。但是，这种方法只能为有限数量的相似恶意网页而设计，并不能针对所有的恶意网页，而且恶意网页要绕过此类的模糊匹配技术并不难。Moshchuk等人提出了一种更具体的启发式方法，这些方法通过分析网页的执行动态，比如并不寻常的过程创建、频繁的重定向等寻找恶意网页的签名。但是启发式算法有比如误报率高以及规则更新难等一些众所周知的缺点...

【技术保护点】
1.一种恶意网页识别模型的建立方法，其特征在于，包括如下步骤：/n1)使用爬虫工具在网络中进行爬虫，将爬取到的网页内容数据样本人为鉴别，分为恶意网页内容数据样本和正常网页内容数据样本；/n2)基于恶意网页内容数据的页面内容特征，构建恶意网页的网页特征，基于正常网页内容数据的页面内容特征，构建正常网页的网页特征；/n3)使用SMOTE算法使恶意网页内容数据样本翻倍；/n4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强，使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡；/n5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分，即训练集、测试集和验证集；/n6)利用训练集和测试集训练5个分类器，即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN，利用5个分类器分别循环迭代，保留每个分类器F1值最高的，即对应生成5个模型，分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn，分别设每个模型的初始权重为1/5，使用5个模型对训练分类器过程中产生的新的数据集进行预测，将预测结果使用下式...

【技术特征摘要】
1.一种恶意网页识别模型的建立方法，其特征在于，包括如下步骤：
1)使用爬虫工具在网络中进行爬虫，将爬取到的网页内容数据样本人为鉴别，分为恶意网页内容数据样本和正常网页内容数据样本；
2)基于恶意网页内容数据的页面内容特征，构建恶意网页的网页特征，基于正常网页内容数据的页面内容特征，构建正常网页的网页特征；
3)使用SMOTE算法使恶意网页内容数据样本翻倍；
4)使用GAN算法对翻倍后的恶意网页内容数据样本进行增强，使恶意网页内容数据样本数量与正常网页内容数据样本数量均衡；
5)将增强后的恶意网页内容数据样本与正常网页内容数据样本合并后随机划分为三个部分，即训练集、测试集和验证集；
6)利用训练集和测试集训练5个分类器，即5层隐藏层ANN、随机森林、SVM、logistic回归以及带权重的KNN，利用5个分类器分别循环迭代，保留每个分类器F1值最高的，即对应生成5个模型，分别设为mdl_ann、mdl_rm、mdl_svm、mdl_logistic和mdl_wknn，分别设每个模型的初始权重为1/5，使用5个模型对训练分类器过程中产生的新的数据集进行预测，将预测结果使用下式形成初始融合模型：
1/5*mdl_ann.predict+1/5*mdl_rm.predict+1/5*mdl_svm.predict+1/5*
mdl_logistic.predict+1/5*mdl_wknn.predict；
7)利用验证集的数据样本，对初始融合模型进行权重调节，得到最高准确率的识别模型，用于恶意网页的识别。

2.如权利要求1所述的一种恶意网页识别模型的建立方法，其特征在于，所述步骤2)中，根据如下页面内容特征来构建恶意网页的网页特征和正常网页的网页特征：
文档代码内执行程序的数量、隐藏的可执行远程代码出现的次数、不匹配的link标签出现的次数、页面中含有链接的数量、网页中的图片内容是否具有黄色暴力赌博游戏的内容、image标签数量、script标签数量、embed标签数量、object标签数量、window.open函数个数、document.location函数个数、document.cookie函数个数、windows.location函数个数；
每个恶意网页内容数据样本由恶意网页的网页特征代表，每个正常网页内容数据样本由正常网页的网页特征代表。

3.如权利要求1所述的一种恶意网页识别模型的建立方法，其特征在于，所述步骤3)中，使用SMOTE算法使恶意网页内容数据样本翻倍的方法为：
301)设...

【专利技术属性】
技术研发人员：曲武，
申请(专利权)人：北京金睛云华科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人