本申请实施例提供一种基于流量特征的攻击检测方法及系统,涉及数据检测技术领域。该基于流量特征的攻击检测方法包括:获取待识别域名在预设时间窗内的流量数据;基于所述流量数据生成特征向量信息,所述特征向量信息包括所述待识别域名的域名静态特征、域名统计特征、上下文特征中的一种或多种;加载预训练模型并将所述特征向量信息输入至所述预训练模型;基于所述预训练模型和所述特征向量信息获得所述待识别域名为C&C攻击的评估结果。该方法可以实现提高对C&C攻击的检测效果。法可以实现提高对C&C攻击的检测效果。法可以实现提高对C&C攻击的检测效果。
【技术实现步骤摘要】
一种基于流量特征的攻击检测方法及系统
[0001]本申请涉及数据检测
,具体而言,涉及一种基于流量特征的攻击检测方法、系统、电子设备及计算机可读存储介质。
技术介绍
[0002]目前,高级持续性威胁(APT,Advanced Persistent Threat)已成为针对高度机密的金融企业、各类机构等高安全等级网络的最主要威胁之一。APT攻击主要目的是窃取敏感数据信息,APT攻击一旦发生,会给受害主体带来严重的经济和信誉损失,甚至会对战略安全造成重大威胁。APT攻击属于攻击时间链长,攻击方式隐蔽、攻击手段高级且不断升级的高级网络攻击行为。但APT攻击目的比较固定,其攻击中通信行为有一定规律可寻,根据攻击者在入侵、建立监控通道、数据资源发现与上传等阶段的行为特点,可以检测在入侵过程中的C&C通信场景。
[0003]现有技术中,APT攻击往往会使用很多不同的方法、工具、手段来攻击同一个目标,而现有方案仅使用域名和IP等静态特征,无法有效地表征攻击的行为特点;此外,对于APT攻击入侵阶段,如钓鱼、访问恶意域名等攻击场景下很少会表现出如上描述的流量异常行为,最直观的差异往往为域名本身,而现有方案仅使用流量的上下文特征,没有考虑域名的静态特征,现有方案使用的上下文特征仅覆盖常规的流量异常行为,没有使用APT长时间内高隐蔽性的相关特征。
技术实现思路
[0004]本申请实施例的目的在于提供一种基于流量特征的攻击检测方法、系统、电子设备及计算机可读存储介质,可以实现提高对C&C攻击的检测效果。
[0005]第一方面,本申请实施例提供了一种基于流量特征的攻击检测方法,包括:
[0006]获取待识别域名在预设时间窗内的流量数据;
[0007]基于所述流量数据生成特征向量信息,所述特征向量信息包括所述待识别域名的域名静态特征、域名统计特征、上下文特征中的一种或多种;
[0008]加载预训练模型并将所述特征向量信息输入至所述预训练模型;
[0009]基于所述预训练模型和所述特征向量信息获得所述待识别域名为C&C攻击的评估结果。
[0010]在上述实现过程中,该基于流量特征的攻击检测方法通过待识别域名中提取域名静态特征、域名统计特征、上下文特征,生成相应的特征向量信息,进而基于预训练模型和特征向量信息获得待识别域名为C&C攻击的评估结果,从而结合动态特征和静态特征检测C&C攻击,解决现有方案仅使用单一静态特征或动态特征的问题,可以实现提高对C&C攻击的检测效果。
[0011]进一步地,所述获取待识别域名在预设时间窗内的流量数据的步骤,包括:
[0012]获取流量采集设备采集的DNS流量数据;
[0013]解析所述DNS流量数据并提取所述待识别域名和所述待识别域名对应的解析IP;
[0014]获取在所述预设时间窗内与所述待识别域名和所述解析IP通信的所有流量,生成流量数据。
[0015]在上述实现过程中,通过流量采集设备采集对应的DNS流量数据,解析并提取每条流量的域名以及域名解析IP;然后,将该域名作为待识别域名,在预设时间窗内与该待识别域名和解析IP通信的所有流量,生成流量数据。
[0016]进一步地,在获取在所述预设时间窗内与所述待识别域名和所述解析IP通信的所有流量,生成流量数据的步骤之后,所述方法还包括:
[0017]将所述待识别域名和所述解析IP对应的流量储存到预设格式的原始数据文件;
[0018]根据所述评估结果记录并更新恶意域名信息和恶意IP信息。
[0019]进一步地,所述域名静态特征包括域名长度、域名level数量、子域名1
‑
gram熵、主域名1
‑
gram熵、子域名最大子词长度、主域名最大子词长度、全限定域名中特殊字符比例、全限定域名中数字比例、全限定域名中大写字母比例、全限定域名中连续数字比例、全限定域名中最长连续数字、全限定域名中最长连续字符、主域名在Alexa中的排名中的一种或多种;
[0020]所述域名统计特征包括预设时间窗内所述待识别域名解析的IP数、IP对应的国家数、平均DNS Answer RRs数、平均DNS Authority RRs数、同一个IP对应的域名数、与域名黑名单中有相同B类地址的IP数、平均域名缓存TTL、平均每天域名所解析IP的变化频次、平均每天DNS查询数中的一种或多种;
[0021]所述上下文特征包括该时间窗内HTTP响应状态数、异常协议和端口流量比例、TCP连接时长均值、方差、最大值、最小值、所有流量上行数据长度和下数据长度比例的均值、总上行数据长度和总下行数据长度的比例、所有流量TCP RTT方差的均值、所有流量TCP len方差的均值中的一种或多种。
[0022]进一步地,所述预训练模型为梯度提升树模型,所述梯度提升树模型定义为:
[0023][0024]其中,f
t
(x)表示第t步的梯度提升树模型,h
t
(x)表示第t棵CART树,所述梯度提升树模型的训练采用前向分步算法,第t步的模型由第t
‑
1步的模型确定,每棵CART树拟合损失函数在当前模型的负梯度,最终提升树模型为多个CART数的线性相加,第t步的所述梯度提升树模型表示为:
[0025]f
t
(x)=f
t
‑1(x)+h
t
(x)。
[0026]进一步地,在加载预训练模型并将所述特征向量信息输入至所述预训练模型的步骤之前,所述方法还包括:
[0027]根据恶意域名信息和恶意IP信息对训练样本中的特征向量信息进行标注,获得标注特征数据;
[0028]根据所述标注特征数据对梯度提升树模型进行训练,获得所述预训练模型。
[0029]进一步地,基于所述预训练模型和所述特征向量信息获得所述待识别域名为C&C攻击的评估结果的步骤,包括:
[0030]将所述特征向量信息输入至所述梯度提升树模型进行推理预测,所述梯度提升树
模型输出所述评估结果,其中,所述评估结果包括所述待识别域名为C&C攻击的概率p。
[0031]第二方面,本申请实施例提供了一种基于流量特征的攻击检测系统,包括:
[0032]流量模块,用于获取待识别域名在预设时间窗内的流量数据;
[0033]特征向量模块,用于基于所述流量数据生成特征向量信息,所述特征向量信息包括所述待识别域名的域名静态特征、域名统计特征、上下文特征中的一种或多种;
[0034]模型加载模块,用于加载预训练模型并将所述特征向量信息输入至所述预训练模型;
[0035]评估模块,用于基于所述预训练模型和所述特征向量信息获得所述待识别域名为C&C攻击的评估结果。
[0036本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于流量特征的攻击检测方法,其特征在于,包括:获取待识别域名在预设时间窗内的流量数据;基于所述流量数据生成特征向量信息,所述特征向量信息包括所述待识别域名的域名静态特征、域名统计特征、上下文特征中的一种或多种;加载预训练模型并将所述特征向量信息输入至所述预训练模型;基于所述预训练模型和所述特征向量信息获得所述待识别域名为C&C攻击的评估结果。2.根据权利要求1所述的基于流量特征的攻击检测方法,其特征在于,所述获取待识别域名在预设时间窗内的流量数据的步骤,包括:获取流量采集设备采集的DNS流量数据;解析所述DNS流量数据并提取所述待识别域名和所述待识别域名对应的解析IP;获取在所述预设时间窗内与所述待识别域名和所述解析IP通信的所有流量,生成流量数据。3.根据权利要求2所述的基于流量特征的攻击检测方法,其特征在于,在获取在所述预设时间窗内与所述待识别域名和所述解析IP通信的所有流量,生成流量数据的步骤之后,所述方法还包括:将所述待识别域名和所述解析IP对应的流量储存到预设格式的原始数据文件;根据所述评估结果记录并更新恶意域名信息和恶意IP信息。4.根据权利要求1所述的基于流量特征的攻击检测方法,其特征在于,所述域名静态特征包括域名长度、域名level数量、子域名1
‑
gram熵、主域名1
‑
gram熵、子域名最大子词长度、主域名最大子词长度、全限定域名中特殊字符比例、全限定域名中数字比例、全限定域名中大写字母比例、全限定域名中连续数字比例、全限定域名中最长连续数字、全限定域名中最长连续字符、主域名在Alexa中的排名中的一种或多种;所述域名统计特征包括预设时间窗内所述待识别域名解析的IP数、平均DNS Answer RRs数、平均DNS Authority RRs数、同一个IP对应的域名数、与域名黑名单中有相同B类地址的IP数、平均域名缓存TTL、平均每天域名所解析IP的变化频次、平均每天DNS查询数中的一种或多种;所述上下文特征包括该时间窗内HTTP响应状态数、异常协议和端口流量比例、TCP连接时长均值、方差、最大值、最小值、所有流量上行数据长度和下数据长度比例的均值、总上行数据长度和总下行数据长度的比例、所有流量TCP RTT方差的均值、所有流量TCP len方差的均值中的一种或多种。5.根据权利要求1所述的基于流量特征的攻击检...
【专利技术属性】
技术研发人员:安晓宁,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。