一种基于自动特征抽取的恶意URL检测系统及其方法技术方案

技术编号：19783132 阅读：32 留言：0更新日期：2018-12-15 12:50

本发明专利技术公开了一种基于自动特征抽取的恶意URL检测系统及其方法，涉及恶意URL检测领域，所述恶意URL检测系统包括：预处理模块，并行学习模块以及检测分类模块。所述预处理模块将网页URL作为输入，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵；所述并行学习模块使用了三种独立的不同算法的深度学习网络，对三个所述数字矩阵进行处理，得到三个概率矩阵。所述检测分类模块通过将上述的三个概率矩阵输入到一个全连接网络进一步处理，给出最终的分类结果。本发明专利技术将文本和图像的深度学习模型与恶意URL检测相结合，综合提取了网页的各种信息，提高了该检测方法的适用范围和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自动特征抽取的恶意URL检测系统及其方法
本专利技术涉及恶意URL检测领域，尤其涉及一种基于自动特征抽取的恶意URL检测系统及其方法。
技术介绍
随着互联网的迅速发展以及网络业务的不断扩大，互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例，如《中国互联网站发展状况及其安全报告(2017)》指出，截至2016年12月，中国网站数量为482万个，年增长14.1％。丰富的互联网服务，一方面极大改善了人们的日常生活；另一方面，也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开，或者设计陷阱或者挖掘漏洞，利用各种攻击技术对人们的网络安全构成严重威胁。尤其是在近年来，互联网支付技术不断普及的背景下，会主动窃取用户信息的恶意网站所造成经济损失就更加巨大，带来的社会影响也更为严重。卡巴斯基实验室的产品在2016年间识别出2.62亿恶意URL链接，全球的在线攻击数量达到7.58亿次，其中有三分之一(29％)的攻击源自美国，17％源自荷兰。当前，随着互联网的蓬勃发展，网络攻击不断增多，恶意URL规模持续扩大，网络安全形势日益严峻。目前，检测恶意URL最常见方法是黑名单技术。黑名单技术的核心是一个已被证实的恶意URL数据库。由于技术原理简单，查询开销很低，黑名单技术容易实现且速度很快。此外，这种技术具有非常低的假阳性率。然而，攻击者可使用多种手段来避开黑名单。该技术还有一个致命的弱点，即无法很好地应对新生成的恶意URL。同时由于URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等均会使UR...

【技术保护点】
1.一种基于自动特征抽取的恶意URL检测系统，其特征在于，包括预处理模块、并行学习模块和检测分类模块；其中，所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理，是将网页URL作为输入，经过预处理之后，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵，并输出给所述并行学习模块；所述并行学习模块包括三种不同的深度卷积网络，分别为n‑gram卷积网络、TextCNN和图像卷积网络，所述n‑gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，分别得到三个概率矩阵，并把所述三个概率矩阵输出给所述检测分类模块；所述检测分类模块包括一个全连接神经网络，所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的分类结果以及评估报告。

【技术特征摘要】
1.一种基于自动特征抽取的恶意URL检测系统，其特征在于，包括预处理模块、并行学习模块和检测分类模块；其中，所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理，是将网页URL作为输入，经过预处理之后，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵，并输出给所述并行学习模块；所述并行学习模块包括三种不同的深度卷积网络，分别为n-gram卷积网络、TextCNN和图像卷积网络，所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，分别得到三个概率矩阵，并把所述三个概率矩阵输出给所述检测分类模块；所述检测分类模块包括一个全连接神经网络，所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的分类结果以及评估报告。2.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。3.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。4.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，所述综合处理是所述输入的三个概率矩阵经过所述全连接神经网络进行集中的学习。5.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，在所述全连接神经网络的进一步综合处理过程中，还要整合URL的Whois信息。6.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，在所述全连接神经网络的进一步综合处理过程中，是通过softmax层对结果进行输出。7.一种基于自动特征抽取的恶意URL检测方法，其特征在于，所述方法包括以下步骤：步骤1、通过输入的所述网页URL获取URL结构信息、文本信息和图像信息，对获得的所述URL结构信息、所述文本信息和所述图像信息进行预处理，从中分别提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征；步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征、以及所述图...

【专利技术属性】
技术研发人员：邹福泰，沈展，沈倩颖，马诗慧，吴越，齐开悦，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人