一种恶意网页识别方法技术

技术编号：24289853 阅读：33 留言：0更新日期：2020-05-26 20:08

本发明专利技术公开了一种恶意网页识别方法，包括如下步骤：步骤1，获取恶意网页数据集，并通过数据预处理得到恶意网页的训练集和测试集；步骤2，利用Char‑CNN模型获取训练集和测试集的字符级嵌入；步骤3，构建BiLSTM‑Attention神经网络模型；步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM‑Attention神经网络模型；步骤5，利用测试集及其字符级嵌入，以及静态词嵌入验证步骤4训练好的BiLSTM‑Attention神经网络模型；步骤6，经过步骤5验证后，将训练好的BiLSTM‑Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。本发明专利技术采用基于attention机制的双向长短时记忆循环神经网络，同时还使用字符级嵌入与静态词嵌入相结合的方法，实现了恶意网页识别的目的。

A malicious web page identification method

全部详细技术资料下载

【技术实现步骤摘要】
一种恶意网页识别方法
本专利技术涉及互联网安全
，尤其是一种恶意网页识别方法。
技术介绍
近年来随着互联网行业不断发展，网络已经成为了人们生活中不可缺少的一部分。但与此同时，利用互联网的恶意犯罪活动也在不断的增长。利用恶意网页来进行钓鱼攻击，推广垃圾广告，引导下载恶意软件等操作是互联网犯罪的主要活动。根据<<全球中文钓鱼网站现状统计分析报告(2016年>>和中国反钓鱼联盟近年来的报告可知中国是受到恶意网页困扰比例最大的国家，并且恶意网页数量在逐年快速增长。如何快速有效的识别恶意网页，已经成为有待解决的网络空间安全问题之一。传统的识别恶意网页方法通常为基于黑名单技术的识别方法。也是现在在工业界应用最多的方法。黑名单技术是维护一个恶意域名列表，如果访问的域名不在恶意域名列表内，那么浏览器将认为这是一个正常的域名，如果在列表内，那么则认为是一个恶意域名。这种方法的优点在于技术实现简单，而且可以准确识别已经确认的恶意网页。但缺点在于不能识别以前未出现过的恶意域名，而且需要技术人员一直维护恶意域名列表。近年来随着机器学习技术的发展，有越来越多的人将机器学习技术应用于恶意网页检测。利用人工从url链接提取url长度，是否为https链接，域名长度等等特征，又或者利用蜜罐技术检测网页的内容，检测是否有恶意脚本，检测网站上的图片是否为违规图片等等，然后再基于机器学习算法如svm，随机森林等算法进行分类。但这种方法非常依赖于网络安全方面的专家，需要对恶意网页方面非常熟悉的人来对恶意网页数据...

【技术保护点】
1.一种恶意网页识别方法，其特征在于，包括如下步骤：/n步骤1，获取恶意网页数据集，并通过数据预处理得到恶意网页的训练集和测试集；/n步骤2，利用Char-CNN模型获取训练集和测试集的字符级嵌入；/n步骤3，构建BiLSTM-Attention神经网络模型；/n步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型；/n步骤5，利用测试集及其字符级嵌入，以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型；/n步骤6，经过步骤5验证后，将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。/n

【技术特征摘要】
1.一种恶意网页识别方法，其特征在于，包括如下步骤：
步骤1，获取恶意网页数据集，并通过数据预处理得到恶意网页的训练集和测试集；
步骤2，利用Char-CNN模型获取训练集和测试集的字符级嵌入；
步骤3，构建BiLSTM-Attention神经网络模型；
步骤4，利用训练集及其字符级嵌入，以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型；
步骤5，利用测试集及其字符级嵌入，以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型；
步骤6，经过步骤5验证后，将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。

2.根据权利要求1所述的恶意网页识别方法，其特征在于，步骤1的方法为：
步骤1.1，去除恶意网页数据集url链接缺失或者标签缺失的样本，并采用pythonwordninia模块对恶意网页数据集中的url链接进行分词处理，保留url链接中所有的符号；
步骤1.2，采用pythonNLTK包中的PorterStemmer和WordNetLemmatizer模块对恶意网页数据集中的url链接进行词干提取和词形还原；
步骤1.3，采用pythonlower()方法将恶意网页数据集中的url链接所有的字母转为小写或大写，完成归一化操作；
步骤1.4，将经过步骤1.1～步骤1.3处理后的恶意网页数据集按7:3或8:2的比例分为训练集和测试集。

3.根据权利要求1所述的恶意网页识别方法，其特征在于，步骤2的方法为：
步骤2.1，构建一张字符表：
将abcdefghijklmnopqrstuvwxyz0123456789-，；.！？：”’/\|_@#$％＾&*～‘+-＝＜＞()[]{}这69个字符使用one-hot编码，再加一个全0向量用于处理不在该字符表中的字符，形成包括70个字符的字符表，并将该字符表表示为one-hot向量；
步骤2.2，将训练集或测试集采用字符表的one-hot向量表示，然后输入Char-CNN模型训练，得到相应的字符级嵌入。

4.根据权利要求1或3所述的恶意网页识别方法，其特征在于，所述Char-CNN模型为一个6层卷积层的神经网络模型。

5.根据权利要求1所述的恶意网页识别方法，其特征在于，步骤3的方法为：
步骤3.1，构建输入层，所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集；
步骤3.2，构建嵌入层，所述嵌入层利用恶意网页数据集的字符级嵌入，以及静态词嵌入替换恶意网页数据集中的单词，得到恶意网页数据集中每条url链接的嵌入表示；
步骤3.3，构建LSTM层，所述LSTM层包括两层，其中一层为前向传播层，另一层为后向传播层；每层LSTM层包括遗忘门，输入门，输出门和细胞状态，其中，
(1)更新遗忘门输出：ft＝σ(wfht-1+Ufxt+bf)；ht-1表示历史信息，xt表示流入细胞中新的信息，bf为偏置项；
(2)更新输入门两部分输出：
it＝σ(wiht-1+Uixt+bi)；
at＝tanh(waht-1+Uaxt+ba)；
(3)更新细胞状态：
Ct＝Ct-1ft+itat；
(4)更新输出门两部分输出：
ot＝σ(w0ht-1+U0xt+b0)；
ht＝ottanh(Ct)；
(5)当前序列索引...

【专利技术属性】
技术研发人员：廖永建，王勇，王栋，吴宇，梁艺宽，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人