一种基于深度学习的恶意流量检测实现方法和装置制造方法及图纸

技术编号:19746330 阅读:42 留言:0更新日期:2018-12-12 04:55
本发明专利技术实施例公开了一种基于深度学习的恶意流量检测实现方法和装置,该方法可以包括:通过动态沙箱技术获得恶意代码的流量会话;将恶意代码的流量会话映射为基因图谱并提取图谱特征,利用流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注;利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型;利用恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测。通过该实施例方案,在一定程度上解决了目前的检测技术存在的人工特征提取困难、隐私泄露、加密和混淆难以识别、机器学习特征人工提取等诸多问题,并且鲁棒性较高,且具有快速、准确率高、误报率低、跨平台检测等特点。

【技术实现步骤摘要】
一种基于深度学习的恶意流量检测实现方法和装置
本专利技术实施例涉及计算机安全技术,尤指一种基于深度学习的恶意流量检测实现方法和装置。
技术介绍
传统的恶意(异常)流量的检测方法是使用传输层端口来识别大部分恶意(异常)流量,虽然存在不精准的问题,但依旧是连续监视和报告异常流量快速、简单的方法。之后,提出基于有效载荷的方法,通过检测包内容来识别和恶意(异常)流量相关的字节或字符串,或者进行更复杂的句法匹配。但这种方法涉及到隐私问题,同时无法应对加密、协议混淆等问题。当前,使用传统机器学习的模式识别算法,在一定程度上能够解决隐私问题,而且可以有效的应对流量混淆和流量加密。传统的机器学习方法已经解决了很多问题,但是它也面临着一个新挑战,就是如何选择合适的特征,目前仍需要人工选择合适的特征。鉴于此,现有技术有待改进和提高。
技术实现思路
为了解决上述技术问题,本专利技术实施例提供了一种基于深度学习的恶意流量检测实现方法和装置,能够在一定程度上解决目前的检测技术存在的人工特征提取困难、隐私泄露、加密和混淆难以识别、机器学习特征人工提取等诸多问题,并且鲁棒性较高,且具有快速、准确率高、误报率低、跨平台检测等特点。为了达到本专利技术实施例目的,本专利技术实施例提供了一种基于深度学习的恶意流量检测实现方法,该方法可以包括:通过动态沙箱技术获得恶意代码的流量会话;将恶意代码的流量会话映射为基因图谱并提取图谱特征,利用流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注;利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型;利用恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测。可选地,通过动态沙箱技术获得恶意代码的流量会话可以包括:从恶意代码数据库中获取指定类型的恶意代码样本,并从恶意代码样本中过滤掉不符合条件的恶意代码样本;利用动态沙箱技术执行过滤后剩余的恶意代码样本,并通过钩子HOOK系统应用程序编程接口API的形式监控所执行的恶意代码样本的行为动作,以识别未知恶意文件渗透和命令与控制C&C恶意外联;从沙箱的虚拟机中获取对应样本的网络流量,并从网络流量中过滤出合法流量,获取恶意代码的流量会话集合。可选地,将恶意代码的流量会话映射为基因图谱并提取图谱特征,利用流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注包括:对恶意代码的流量会话数据进行预处理,以保留区分度大于或等于预设的区分度阈值的数据;利用预设的映射算法,将预处理后的恶意代码的流量会话集合映射为预设大小的基因图谱;利用图谱特征提取算法提取基因图谱的图谱特征,构造恶意流量基因图谱的图谱特征集合;对恶意流量基因图谱的图谱特征集合进行抽样,构造图谱特征子集合,执行预聚类过程,以挑选出所需的聚类算法;在确定所需的聚类算法之后,基于全量恶意流量基因图谱的图谱特征集合进行聚类;使用预设的杀毒软件对恶意流量基因图谱的聚类簇进行家族标注,构造深度学习所需的训练样本集合。可选地,该方法还可以包括:预先利用深度学习技术构建深度学习模型,并设置深度学习模型的网络结构参数和训练权重。可选地,利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型包括:对于标注后的恶意流量基因图谱,使用预设的分段算法将不同的恶意代码家族的恶意流量基因图谱分为多个分块;其中,原始的恶意流量基因图谱及其分块被分别用于深度学习模型的训练;对于原始的恶意流量基因图谱及其分块进行的每个深度学习模型得训练分别经过多轮次的迭代,获取相应的训练结果;将训练结果中与预设要求最接近的训练结果所对应的经过训练后的深度学习模型作为恶意流量检测模型。可选地,利用恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测包括:将训练好的恶意流量检测模型从层次型数据格式5HDF5文件引导到内存;获取网络实时流量会话,利用预设的映射算法将网络实时流量会话映射为基因图谱;使用预设的分段算法将网络实时流量会话的基因图谱分为多个分块;利用恶意流量检测模型对网络实时流量会话的基因图谱及其分块进行检测,获取检测结果;利用恶意流量评分算法MT_Score对检测结果进行处理,实现恶意流量检测。可选地,恶意代码数据库中包括:Windows系统的恶意文件、Linux系统的可执行和可链接的格式ELF恶意文件、Mac系统的恶意文件以及安卓Android系统的安装包APK文件。可选地,动态沙箱技术内置了Windows系统、Linux系统、Mac系统和Android系统的虚拟机,并能够运行Windows系统的恶意文件、Linux系统的ELF恶意文件、Mac系统的恶意文件和Android系统的APK文件,产生网络通信。可选地,预设的映射算法可以包括:T2G映射算法;预设的分段算法可以包括:G2S分段算法。为了达到本专利技术实施例目的,本专利技术实施例提供了一种基于深度学习的恶意流量检测实现装置,包括处理器和计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令被处理器执行时,实现上述的基于深度学习的恶意流量检测实现方法。本专利技术实施例包括:通过动态沙箱技术获得恶意代码的流量会话;将恶意代码的流量会话映射为基因图谱并提取图谱特征,利用流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注;利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型;利用恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测。通过该实施例方案,在一定程度上解决了目前的检测技术存在的人工特征提取困难、隐私泄露、加密和混淆难以识别、机器学习特征人工提取等诸多问题,并且鲁棒性较高,且具有快速、准确率高、误报率低、跨平台检测等特点。本专利技术实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例而了解。本专利技术实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术实施例的技术方案,并不构成对本专利技术实施例技术方案的限制。图1为本专利技术实施例的基于深度学习的恶意流量检测实现方法流程图;图2为本专利技术实施例的恶意流量会话预处理字段描述示意图;图3为本专利技术实施例的T2G映射算法示意图;图4为本专利技术实施例的恶意代码家族网络流量会话图谱示意图;图5为本专利技术实施例的卷积神经元网络CNN的架构示意图;图6为本专利技术实施例的G2S分段算法示意图;图7为本专利技术实施例的恶意代码家族网络流量会话图谱分块示意图;图8为本专利技术实施例的MT_Score恶意流量评分算法流程图;图9为本专利技术实施例的基于深度学习的恶意流量检测实现装置示意图;图10为本专利技术实施例的基于深度学习的恶意流量检测实现装置结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处本文档来自技高网...

【技术保护点】
1.一种基于深度学习的恶意流量检测实现方法,其特征在于,所述方法包括:通过动态沙箱技术获得恶意代码的流量会话;将所述恶意代码的流量会话映射为基因图谱并提取图谱特征,利用所述流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注;利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型;利用所述恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测。

【技术特征摘要】
1.一种基于深度学习的恶意流量检测实现方法,其特征在于,所述方法包括:通过动态沙箱技术获得恶意代码的流量会话;将所述恶意代码的流量会话映射为基因图谱并提取图谱特征,利用所述流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注;利用标注后的恶意代码家族的基因图谱训练预设的深度学习模型,以建立恶意流量检测模型;利用所述恶意流量检测模型对网络实时流量进行检测,实现恶意流量检测。2.根据权利要求1所述的基于深度学习的恶意流量检测实现方法,其特征在于,所述通过动态沙箱技术获得恶意代码的流量会话包括:从恶意代码数据库中获取指定类型的恶意代码样本,并从所述恶意代码样本中过滤掉不符合条件的恶意代码样本;利用所述动态沙箱技术执行过滤后剩余的恶意代码样本,并通过钩子HOOK系统应用程序编程接口API的形式监控所执行的恶意代码样本的行为动作,以识别未知恶意文件渗透和命令与控制C&C恶意外联;从沙箱的虚拟机中获取对应样本的网络流量,并从所述网络流量中过滤出合法流量,获取所述恶意代码的流量会话集合。3.根据权利要求1所述的基于深度学习的恶意流量检测实现方法,其特征在于,所述将所述恶意代码的流量会话映射为基因图谱并提取图谱特征,利用所述流量会话的图谱特征进行聚类,并对聚类结果进行恶意代码家族标注包括:对所述恶意代码的流量会话数据进行预处理,以保留区分度大于或等于预设的区分度阈值的数据;利用预设的映射算法,将预处理后的恶意代码的流量会话集合映射为预设大小的基因图谱;利用图谱特征提取算法提取所述基因图谱的图谱特征,构造恶意流量基因图谱的图谱特征集合;对所述恶意流量基因图谱的图谱特征集合进行抽样,构造图谱特征子集合,执行预聚类过程,以挑选出所需的聚类算法;在确定所需的聚类算法之后,基于全量恶意流量基因图谱的图谱特征集合进行聚类;使用预设的杀毒软件对恶意流量基因图谱的聚类簇进行家族标注,构造深度学习所需的训练样本集合。4.根据权利要求1所述的基于深度学习的恶意流量检测实现方法,其特征在于,所述方法还包括:预先利用深度学习技术构建所述深度学习模型,并设置所述深度学习模型的网络结构参数和训练权重。5.根据权利要求3所述的基于深度学习的恶意流量检测实现方法,其特征在于,所述利用标注后的恶意代码家...

【专利技术属性】
技术研发人员:曲武
申请(专利权)人:北京金睛云华科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1