一种基于自动特征抽取的恶意URL检测系统及其方法技术方案

技术编号:19783132 阅读:32 留言:0更新日期:2018-12-15 12:50
本发明专利技术公开了一种基于自动特征抽取的恶意URL检测系统及其方法,涉及恶意URL检测领域,所述恶意URL检测系统包括:预处理模块,并行学习模块以及检测分类模块。所述预处理模块将网页URL作为输入,将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵;所述并行学习模块使用了三种独立的不同算法的深度学习网络,对三个所述数字矩阵进行处理,得到三个概率矩阵。所述检测分类模块通过将上述的三个概率矩阵输入到一个全连接网络进一步处理,给出最终的分类结果。本发明专利技术将文本和图像的深度学习模型与恶意URL检测相结合,综合提取了网页的各种信息,提高了该检测方法的适用范围和准确性。

【技术实现步骤摘要】
一种基于自动特征抽取的恶意URL检测系统及其方法
本专利技术涉及恶意URL检测领域,尤其涉及一种基于自动特征抽取的恶意URL检测系统及其方法。
技术介绍
随着互联网的迅速发展以及网络业务的不断扩大,互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例,如《中国互联网站发展状况及其安全报告(2017)》指出,截至2016年12月,中国网站数量为482万个,年增长14.1%。丰富的互联网服务,一方面极大改善了人们的日常生活;另一方面,也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开,或者设计陷阱或者挖掘漏洞,利用各种攻击技术对人们的网络安全构成严重威胁。尤其是在近年来,互联网支付技术不断普及的背景下,会主动窃取用户信息的恶意网站所造成经济损失就更加巨大,带来的社会影响也更为严重。卡巴斯基实验室的产品在2016年间识别出2.62亿恶意URL链接,全球的在线攻击数量达到7.58亿次,其中有三分之一(29%)的攻击源自美国,17%源自荷兰。当前,随着互联网的蓬勃发展,网络攻击不断增多,恶意URL规模持续扩大,网络安全形势日益严峻。目前,检测恶意URL最常见方法是黑名单技术。黑名单技术的核心是一个已被证实的恶意URL数据库。由于技术原理简单,查询开销很低,黑名单技术容易实现且速度很快。此外,这种技术具有非常低的假阳性率。然而,攻击者可使用多种手段来避开黑名单。该技术还有一个致命的弱点,即无法很好地应对新生成的恶意URL。同时由于URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等均会使URL的检测效果大打折扣。如今,传统方法日益暴露出准确率不高、内存占用过大、数据集适应性差等缺陷。一些PC端的浏览器和各种主动防御软件都会提供恶意URL检测和拦截功能,但它们本质上基本还是依靠黑名单技术等。深度学习新技术虽然已经被广泛研究,但还是没有普及到实际的URL检测软件中去。因此,本领域的技术人员致力于开发一种更加准确并且可以应对新生成的恶意URL的检测技术。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何通过准确检测出恶意URL,能够给出分类,并能适用于新生成的网页。为实现上述目的,本专利技术提供了一种基于自动特征抽取的恶意URL检测系统,包括预处理模块、并行学习模块和检测分类模块;其中,所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理,是将网页URL作为输入,经过预处理之后,将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵,并输出给所述并行学习模块;所述并行学习模块包括三种不同的深度卷积网络,分别为n-gram卷积网络、TextCNN和图像卷积网络,所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,分别得到三个概率矩阵,并把所述三个概率矩阵输出给所述检测分类模块;所述检测分类模块包括一个全连接神经网络,所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理,给出最终的分类结果以及评估报告。进一步地,所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。进一步地,所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。进一步地,所述综合处理是所述输入的三个概率矩阵经过所述全连接神经网络进行集中的学习。进一步地,在所述全连接神经网络的进一步综合处理过程中,还要整合URL的Whois信息。进一步地,在所述全连接神经网络的进一步综合处理过程中,是通过softmax层对结果进行输出,将选取的三种特征(所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征)之间的信息关联达到最大化,而且更少的人工介入也可以使特征提取的误差进一步地降低。本专利技术还提供了一种基于自动特征抽取的恶意URL检测方法,所述方法包括以下步骤:步骤1、通过输入的所述网页URL获取URL结构信息、文本信息和图像信息,对获得的所述URL结构信息、所述文本信息和所述图像信息进行预处理,从中分别提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征;步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征分别转化成所述三个包含特征向量的数字矩阵,并输出给所述并行学习模块;步骤3、在所述并行学习模块中,使用所述三种不同的深度卷积网络,分别为n-gram卷积网络、TextCNN和图像卷积网络,对所述三个数字矩阵进行处理,输出三个相应的概率矩阵;所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,所述并行学习模块把所述三个概率矩阵输出给所述检测分类模块;步骤4、在所述检测分类模块,所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理,给出最终的网页分类结果以及评估报告。进一步地,所述步骤1还包括:步骤1.1、通过输入的所述网页URL访问网页,获得网页源码,从中获得所述文本信息;步骤1.2、对所述网页源码进行解析,获得所述网页的图片信息;步骤1.3、对所述文本信息进行字符串过滤,把所述图片信息裁剪成合适的大小,提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征。进一步地,所述步骤2还包括:步骤2.1、使用词向量转化技术,将所述URL结构化特征以字符为单位转化成字符向量;步骤2.2、使用分词技术,将所述网页文本内容和结构特征以词为单位划分成分;步骤2.3、再使用所述词向量转化技术,将所述网页文本内容和结构特征以词为单位转化为词向量;步骤2.4、以R、G、B矩阵将所述图像特征转化为特征向量,从而将所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征都转化成所述三个包含特征向量的数字矩阵,并输出给所述并行学习模块。进一步地,所述步骤3中的所述n-gram卷积网络,分别以3、4、5大小的卷积窗口,对包含所述URL结构化特征的数字矩阵进行处理,获得URL字符结构的特征;所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,以获取词和句子之间的联系;所述图像卷积网络对包含所述图像特征的数字矩阵进行处理,获取图像局部和整体的联系;处理结束之后,所述并行学习模块把所述三个概率矩阵输出给所述检测分类模块。本专利技术中所述URL三方面的自动特征抽取意为计算机自动完成特征抽取,不需人工干预,因此相比于人工特征抽取,更充分地利用了深度学习能够挖掘深层特征关联的优点。同时,得到的结果为抽象特征(Featureless),可以适应更大范围以及更多不同特性的输入。基于自动特征抽取的恶意URL检测系统及其方法,是一种基于深度学习网络的高精度、可持续性学习、反应迅速的恶意URL检测系统。在系统架构方面采用服务器端-浏览器端的架构,以网页URL本文档来自技高网
...

【技术保护点】
1.一种基于自动特征抽取的恶意URL检测系统,其特征在于,包括预处理模块、并行学习模块和检测分类模块;其中,所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理,是将网页URL作为输入,经过预处理之后,将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵,并输出给所述并行学习模块;所述并行学习模块包括三种不同的深度卷积网络,分别为n‑gram卷积网络、TextCNN和图像卷积网络,所述n‑gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,分别得到三个概率矩阵,并把所述三个概率矩阵输出给所述检测分类模块;所述检测分类模块包括一个全连接神经网络,所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理,给出最终的分类结果以及评估报告。

【技术特征摘要】
1.一种基于自动特征抽取的恶意URL检测系统,其特征在于,包括预处理模块、并行学习模块和检测分类模块;其中,所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理,是将网页URL作为输入,经过预处理之后,将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵,并输出给所述并行学习模块;所述并行学习模块包括三种不同的深度卷积网络,分别为n-gram卷积网络、TextCNN和图像卷积网络,所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理,所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理,所述图像卷积网络对包含所述图像特征的数字矩阵进行处理;处理结束之后,分别得到三个概率矩阵,并把所述三个概率矩阵输出给所述检测分类模块;所述检测分类模块包括一个全连接神经网络,所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理,给出最终的分类结果以及评估报告。2.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。3.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。4.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,所述综合处理是所述输入的三个概率矩阵经过所述全连接神经网络进行集中的学习。5.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,在所述全连接神经网络的进一步综合处理过程中,还要整合URL的Whois信息。6.如权利要求1所述的基于自动特征抽取的恶意URL检测系统,其特征在于,在所述全连接神经网络的进一步综合处理过程中,是通过softmax层对结果进行输出。7.一种基于自动特征抽取的恶意URL检测方法,其特征在于,所述方法包括以下步骤:步骤1、通过输入的所述网页URL获取URL结构信息、文本信息和图像信息,对获得的所述URL结构信息、所述文本信息和所述图像信息进行预处理,从中分别提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征;步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征、以及所述图...

【专利技术属性】
技术研发人员:邹福泰沈展沈倩颖马诗慧吴越齐开悦
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1