一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统技术方案

技术编号:20451656 阅读:40 留言:0更新日期:2019-02-27 04:33
本发明专利技术公开了一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统,该发明专利技术基于HTTPS僵尸主机与命令与控制(C&C)服务器之间通信流量的周期特征、HTTPS数据包的流量特征,通过机器学习的方式,训练识别正常HTTPS和异常的僵尸网络通信信号的分类器。

【技术实现步骤摘要】
一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统
本专利技术涉及一种互联网通信
,特别涉及一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统。
技术介绍
僵尸网络(botnet)是黑客利用僵尸程序控制大量足记所形成的的被控主机群,攻击者可以利用僵尸网络进行网络攻击。.内网中的主机分别被感染成为IRC2bot,HTTP2bot;这些僵尸主机利用外部的DNSserver解析它们的C&CServer(命令与控制服务器)的IP地址,并连接到IRCServer或者WEBServer等待BotnetController的命令,并最后向某受害主机发起攻击。如今,Web流量已经成为与各种受感染主机进行通信的理想选择原因。首先,即使是部署了安全监控的企业网络也没有那么严格的针对HTTP/HTTPS流量的监察措施,因为他们必须允许员工们浏览网页。此外,HTTP/HTTPS通道具相较于流行的通讯协议的优势,例如针对于P2P通信,HTTP/HTTPS更易于使用。IRC通信是通过使用IP和域名,这增加了通过受感染的主机找到C&C服务器的可能性。另外,P2P和IRC协议的通讯是可疑的,一般被公司阻断。最后,HTTP/HTTPS通道可以认为是隐蔽的,因为在日常的网页浏览过程中有大量的HTTPS请求和响应。例如,一个用户点击加载一个流行的瑞士新闻网,http://www.20min.ch,触发大约400个HTTP/HTTPS请求。因此,恶意流量可以隐藏在良性流量之内,从而有效避免检测。
技术实现思路
为克服现有技术的不足,本专利技术通过分析僵尸主机与命令与控制(C&C)服务器之间通信流量的周期特征、HTTPS数据包的流量特征,训练识别正常HTTPS和异常的僵尸网络通信信号的分类器。本专利技术包括以下模块:基于名单的匹配过滤模块、基于机器学习算法的异常流量识别器模块、基于专家分析的增强模块。1.基于名单的匹配过滤模块分为两个部分:1)白名单部分是由原始的专家分析和公司的经验积累得到的一组正常可信的域名和IP地址列表,未知的HTTPS流量首先通过匹配过滤模块,如果目的IP地址或者请求域名属于白名单,则过滤模块放行该流量数据包。2)黑名单部分是由原始专家分析和安全公司识别出的一组高度可疑的C&C服务器域名和地址列表,未知的HTTPS流量首先通过匹配过滤模块,如果目的IP地址或者请求域名属于黑名单,则过滤模块阻断该通信流量和禁止该流量的来源内网地址的所有数据包传输,并且向控制中心发出警报,将发出该流量的来源内网地址列为可疑的C&C客户端。通过专家分析和机器学习模型判断,随时间不停积累下的正常和威胁的域名和IP地址会在每个更新周期内,提交到匹配数据库,添加到白名单和黑名单中,形成动态匹配过滤机制。2.基于机器学习算法的异常流量识别器模块:基于名单的匹配过滤模块根据黑白名单列表,过滤大量的正常HTTPS流量,一部分的已知C&C通信流量被识别并提交警报。没有被匹配的HTTPS数据包,首先按照通信的来往IP地址进行划分,划分为同一通信来往地址的HTTPS数据包,分析其通信的周期性和每次通信的数据量大小,分别计算出通信的周期度和每次通信数据包的平均大小。除了计算周期度和平均包大小,继续提取出HTTPS数据包的部分标签字段作为特征,针对C&C通信伪装的HTTPS流量,与正常的流量有所不同,例如HTTP请求中有一个referer的报文头,用来指明当前流量的来源参考页,简单的伪装C&C通信的HTTPS数据包不包含referer标签项。又比如一般的https通信是保持对话,connection字段为keep-alive,但C&C通信一般为beacon(信标)信号,周期性的心跳信号,一般connection为close。因此,经过特征筛选后,本文最终确定选取的特征包括但不限于有:referer标签项、connection字段、url的长度、http的方法(GET、post)、通信的周期度、域名的年龄。分类器采用返回评分的机器学习算法,以通信周期度和平均包大小,以及设计提取的各个特征,变量通过标准化变换去除量纲后,作为分类器的输入特征通过分类器得到危险评分。危险评分低于安全底线阈值时,判断为正常流量,如果危险评分高于危险阈值时,判断为异常流量。如果评分介于安全底线阈值和危险阈值之间,判断为可疑流量,需要通过专家分析继续判断3.基于专家分析的增强模块:经过基于机器学算法的异常流量识别模块后,流量得分介于危险阈值和安全底线的流量,属于可疑。可疑流量需要通过专家分析,进行标注。安全专家通过分析HTTPS流量的内容,检查通信来源的内网主机,取证调查,发现和检测出被妥协的主机,真正确认出C&C攻击。原始存储在训练集的数据,都是原始的数据,不断更新的C&&攻击,需要更新和添加新标注标的流量样本。更新训练集,可以选择性地删除了一系列得到的流量,通过得分极低和得分极高的样本,作为具有代表性的正常流量样本或者代表性的C&C通信样本(威胁样本),并且加入新判断的C&C样本和正常流量样本,重新作为带标签的训练集,重新对分类器进行训练。更新的训练样本库后,还可以根据专家分析识别出C&C通信地址,将对应的C&C服务器域名和IP地址列入黑名单中,加入基于名单的匹配过滤模块中,增加数据库的威胁域名和IP的积累。根据本专利技术涉及的内容,实现步骤如下:1)针对已有的C&C通信流量和正常通信流量,提取流量特征,训练初始的异常流量分类器;2)建立域名和IP的白名单和黑名单;3)通过部署机器,获取从被监控网络出口的HTTPS流量;4)未知的HTTPS经过匹配过滤模块,正常流量被放行,异常流量被截断并触发报警,没有被匹配的流量进入识别器模块;5)识别器模块,首先提取出流量的特征,接着分析出正常和威胁流量,评分介于两个阈值中的可疑流量,进入专家分析;6)专家分析,将可疑流量进行标识;7)专家分析得到的新样本,加入原有的训练集,在每个工作周期内重新训练分类器;8)专家分析得到新样本,提取出新的C&C服务器的IP和域名地址,加入匹配过滤模块的黑名单中;9)实时更新匹配过滤的名单列表。本专利技术本专利技术技术方案带来的有益效果:本专利技术不仅考虑了C&C通讯信号的周期性,还考虑了HTTPS流量的特征;利用机器学习的方式,不需要事先制定匹配规则,不需要确定通讯周期度的阈值、数据包的平均值大小的阈值,能够通过算法自动建模来识别通讯模式;相较于仅仅考虑通讯周期性和数据包平均大小的方式,预测使用的输入多,分类器的输入特征数更多,考虑的维度更广。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术的整体流程示意图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实本文档来自技高网...

【技术保护点】
1.一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统,该专利技术基于HTTPS僵尸主机与命令与控制(C&C)服务器之间通信流量的周期特征、HTTPS数据包的流量特征,通过机器学习的方式,训练识别正常HTTPS和异常的僵尸网络通信信号的分类器;该专利技术包含基于名单的匹配过滤模块、基于机器学习算法的异常流量识别器模块、基于专家分析的增强模块。

【技术特征摘要】
1.一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统,该发明基于HTTPS僵尸主机与命令与控制(C&C)服务器之间通信流量的周期特征、HTTPS数据包的流量特征,通过机器学习的方式,训练识别正常HTTPS和异常的僵尸网络通信信号的分类器;该发明包含基于名单的匹配过滤模块、基于机器学习算法的异常流量识别器模块、基于专家分析的增强模块。2.根据权利要求1所述的一种基于HTTPS流量特征分析的僵尸网络通讯信号的检测系统,其特征在于:基于名单的匹配过滤模块,通过专家分析和机器学习模型判断,随时间不停积累下的正常和威胁的域名和IP地址会在每个更新周期内,提交到匹配数据库,添加到白名单和黑名单中,形成动态的匹配过滤机制。3.根据权利要求1所述的一种基于HTTPS流量特征分析的僵尸网络通...

【专利技术属性】
技术研发人员:杨育斌王圳锴柯宗贵
申请(专利权)人:蓝盾信息安全技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1