一种命令和控制通信检测方法及系统技术方案

技术编号:22172852 阅读:31 留言:0更新日期:2019-09-21 13:33
本申请提供一种命令和控制通信检测方法及系统,涉及计算机网络安全领域和人工智能领域,能够构造DGA智能检测模型,提高DGA域名检测精度和检测效率。该方法包括:构造黑白域名样本的训练数据集;根据训练数据集,利用多种特征提取算法构造不同类别的特征向量文件;利用不同类别的特征向量文件对DGA基分类器进行训练;利用训练后的DGA基分类器和集成策略构建DGA智能检测模型;构建并训练强化学习模型,利用强化学习模型强化DGA智能检测模型的检测能力;利用DGA智能检测模型和关联分析算法,识别目标对象。该方法应用于DGA智能检测模型的构建和应用过程。

A Command and Control Communication Detection Method and System

【技术实现步骤摘要】
一种命令和控制通信检测方法及系统
本申请涉及计算机网络安全领域和人工智能领域,尤其涉及一种命令和控制(C&C)通信检测方法及系统。
技术介绍
随着互联网应用的快速发展,其中承载的黑色利益链条越来越大,攻击形式也纷繁多样且不断创新,网络攻击的检测难度不断增大。其中,僵尸网络已经成为变化形式最快、设计范围最广、直接危害最为严重的网络威胁之一。域名系统(DomainNameSystem,DNS)作为互联网通信的基础服务,其核心能力是将易于人为理解的域名转义成机器可以识别的IP地址。由于DNS协议是网络中普遍使用的协议,攻击者通常使用DNS协议作为命令控制(CommandandControl,C&C)通信和数据泄露的工具,即利用域名生成算法(Domaingenerationalgorithm,DGA)生成的DGA域名进行C&C通信,以及利用DNS隐蔽隧道窃取用户数据。具体的,攻击者通过大量注册恶意域名用于部署僵尸网络和木马程序,以僵尸网络为例,其可以利用DGA技术将真假域名进行混淆访问,掩藏真实主机的IP地址以躲避检测,大大规避了检测系统的检测能力。在C&C通信检测领域,存在攻击形式纷繁、攻击手段不断改进、且检测难度不断增大等现象,目前,还没有形成一个较为成熟的通信检测方式。因此,亟待提出一种应对DGA技术的检测方式。
技术实现思路
本申请提供一种C&C通信检测方法及系统,能够构造DGA智能检测模型,提高DGA域名检测精度和检测效率。为达到上述目的,本申请采用如下技术方案:第一方面,本申请提供一种C&C通信检测方法,该方法可以包括:构造黑白域名样本的训练数据集;根据训练数据集,利用多种特征提取算法构造不同类别的特征向量文件;利用不同类别的特征向量文件对DGA基分类器进行训练;利用训练后的DGA基分类器和集成策略构建DGA智能检测模型;构建并训练强化学习模型,利用强化学习模型强化DGA智能检测模型的检测能力;利用DGA智能检测模型和关联分析算法,识别目标对象。第二方面,本申请提供一种C&C通信检测系统,该系统包括:样本获取模块,用于获取DGA域名数据集和合法域名数据集,并对数据集进行预处理,进而构造黑白域名样本的训练数据集。特征提取模块,用于根据训练数据集,利用多种特征提取算法构造不同类别的特征向量文件。训练模块,利用不同类别的特征向量文件对DGA基分类器进行训练。构建模块,用于利用训练后的DGA基分类器和集成策略构建DGA智能检测模型。强化学习模块,用于构建强化学习模型,并利用强化学习模型强化DGA智能检测模型的检测能力。检测模块,用于利用DGA智能检测模型和关联分析算法,识别目标对象。第三方面,本申请提供一种C&C通信检测系统,该系统包括:强化学习服务器,用于利用强化学习技术自动持续构造和输出免杀训练数据集,进而迭代训练DGA智能检测模型,强化DGA智能检测模型的检测能力。样本服务器,用于构造黑白域名样本的训练数据集。监督学习服务器,用于利用样本服务器获取的特征向量文件,训练基分类器并进行选择。同时,基于选取的基分类器,利用集成学习技术构建DGA智能检测模型。DGA智能检测模型服务器,用于获取流量分析服务器输出的数据,并对DGA域名的特征向量进行预测,判断是否为DGA域名。若为DGA域名,则利用DGA智能检测模型服务器中的关联引擎组件对域名的检测结果进行关联分析,进而识别受控主机、僵尸网络家族和僵尸网络控制服务器并输出检测结果,完成C&C通信检测过程。流量分析服务器,用于实时分析网络流量,输出待检测数据对应的五元组信息、DGA域名、查询结果、DGA域名特征向量等信息。第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述第一方面及其各种可选的实现方式中任意之一所述的C&C通信检测方法。本申请提供的C&C通信检测方法及系统。构造黑白域名样本的训练数据集;根据训练数据集,利用多种特征提取算法构造不同类别的特征向量文件;利用不同类别的特征向量文件对DGA基分类器进行训练;利用训练后的DGA基分类器和集成策略构建DGA智能检测模型;构建并训练强化学习模型,利用强化学习模型强化DGA智能检测模型的检测能力;利用DGA智能检测模型识别受控主机、僵尸网络家族和僵尸网络控制服务器。相对于现有技术中,对C&C通信检测的研究较为薄弱,不能应对DGA技术造成的连续、复杂的网络状态。本申请实施例提供的通信检测方法,能够通过建立DGA智能检测模型在C&C通信检测领域提高DGA域名检测精度和检测效率,降低误报和漏报。附图说明图1为本申请实施例提供的C&C通信检测方法示意图一;图2为本申请实施例提供的C&C通信检测方法示意图二;图3为本申请实施例提供的C&C通信检测方法示意图三;图4为本申请实施例提供的C&C通信检测方法示意图四;图5为本申请实施例提供的基于复合金字塔模型的集成策略示意图;图6为本申请实施例提供的C&C通信检测方法示意图五;图7为本申请实施例提供的C&C通信检测方法示意图六;图8为本申请实施例提供的构建强化学习模型的示意图;图9为本申请实施例提供的C&C通信检测方法示意图七;图10为本申请实施例提供的DGA智能检测模型检测过程的示意图;图11为本申请实施例提供的C&C通信检测系统的结构示意图一;图12为本申请实施例提供的C&C通信检测系统的结构示意图二。具体实施方式下面结合附图对本申请实施例提供的C&C通信检测方法及系统进行详细地描述。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。本申请实施例提供一种C&C通信检测方法,如图1所示,该方法可以包括S101-S106:S101、构造黑白域名样本的训练数据集。作为一种可能的实现方式,如图2所示,S101可以实现为如下步骤S1011至S1013:S1011、获取黑域名样本数据集。其中,黑域名指的是DGA域名。作为一种可能的实现方式,参见图2,利用爬虫直接获取公开的DGA样本。可选的,直接获取DGA域名构成第一DGA域名数据集。示例性的,从DGA域本文档来自技高网...

【技术保护点】
1.一种命令和控制C&C通信检测方法,其特征在于,所述方法包括:构造黑白域名样本的训练数据集;根据所述训练数据集,利用多种特征提取算法构造不同类别的特征向量文件;利用所述不同类别的特征向量文件对域名生成算法DGA基分类器进行训练;利用训练后的DGA基分类器和集成策略构建DGA智能检测模型;构建并训练强化学习模型,利用所述强化学习模型强化所述DGA智能检测模型的检测能力;利用所述DGA智能检测模型和关联分析算法,识别目标对象。

【技术特征摘要】
1.一种命令和控制C&C通信检测方法,其特征在于,所述方法包括:构造黑白域名样本的训练数据集;根据所述训练数据集,利用多种特征提取算法构造不同类别的特征向量文件;利用所述不同类别的特征向量文件对域名生成算法DGA基分类器进行训练;利用训练后的DGA基分类器和集成策略构建DGA智能检测模型;构建并训练强化学习模型,利用所述强化学习模型强化所述DGA智能检测模型的检测能力;利用所述DGA智能检测模型和关联分析算法,识别目标对象。2.根据权利要求1所述的方法,其特征在于,所述构造黑白域名样本的训练数据集,包括:获取DGA域名数据集和合法域名数据集;对所述DGA域名数据集和合法域名数据集进行预处理,以构造所述训练数据集。3.根据权利要求2所述的方法,其特征在于,获取所述DGA域名数据集和合法域名数据集,包括:从开源社区获取第一DGA和第一DGA域名数据集;对恶意代码进行逆向分析,获取第二DGA;根据所述第一DGA和/或所述第二DGA生成第二DGA域名数据集;根据所述恶意代码运行产生的网络流量获取第三DGA域名数据集;所述DGA域名数据集包含所述第一DGA域名数据集、第二DGA域名数据集和第三DGA域名数据集中的一个或多个域名数据集;从合法域名站点获取所述合法域名数据集。4.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据集,利用多种特征提取算法构造不同类别的特征向量文件,具体包括:获取所述训练数据集,并对所述训练数据集进行数据清洗;利用所述多种特征提取算法分别提取清洗后的训练数据集的不同类别的特征,以构造不同类别的特征向量;对所述不同类别的特征向量分别进行量化处理;将量化处理后的不同类别的特征向量存储为对应的特征向量文件。5.根据权利要求1所述的方法,其特征在于,所述利用所述不同类别的特征向量文件对DGA基分类器进行训练,包括:针对所述不同类别的特征向量文件中的每一特...

【专利技术属性】
技术研发人员:曲武
申请(专利权)人:北京金睛云华科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1