【技术实现步骤摘要】
基于大数据分析多步实时控制链路检测方法及系统
[0001]本专利技术涉及网络安全领域,尤其涉及一种基于大数据分析多步实时控制链路检测方法及系统。
技术介绍
[0002]随着网络环境的发展,例如SSH、rdp等远程控制软件,在日常的生活和工作中提供相当多的便利,主要用于远程解决技术问题、碍于物理因素阻隔的远程控制操作辅助等,用途相当广泛。然而,这类远程控制软件也常常被网络攻击者利用,作为跳板攻击、横向渗透等网络入侵行为的攻击、控制工具。因此,对于此类控制软件在有安全需求的内网环境中的使用和监管都是十分有必要的。网络攻击者在进行内网横向渗透时,可以通过这些远程控制软件,获得一台网络设备机器的控制权,然后再使用这台被控制的网络设备运行远程控制软件去发起对另一台网络设备的远程控制,从而实现跳板攻击,传播风险。
[0003]现有技术中存在以下缺点:
[0004]1.文献(王珊.基于网络流量特征分析的跳板入侵检测方法的研究.华侨大学,2016.)提出了基于混沌理论选取检测参数值的入侵检测方法,提出使用相空间重构技术对网络 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据分析多步实时控制链路检测方法,其特征在于,包括以下步骤:步骤1:采集内网环境中的远程控制软件的网络流量数据,并进行过滤,筛选得到成功进行远程软件登录的网络流量数据;步骤2:基于单向无环图抽象和过滤出所述成功进行远程软件登录的网络流量数据中符合实际多步控制链路的ip地址关联关系;步骤3:使用基于时间窗口重叠的判定逻辑得到所述符合实际多步控制链路的ip地址关联关系中的符合业务逻辑的多步远程控制链路;步骤4:基于流量包开始时间差异的方法发现所述多步远程控制链路中流量包的关联关系,按关联流量对的数量占所有开始时间对的数量的百分比降序排列输出展示给系统用户;步骤5:使用预设的大数据分析算法对其它暂时还没有出现在高风险多步控制链路中的网络设备,进行被远程软件多步控制的可能性预测,得到风险评分T,若风险评分T在预设范围内,则进入次重点监控名单,如果T超过预设值,则进入重点监控名单。2.如权利要求1所述的基于大数据分析多步实时控制链路检测方法,其特征在于,步骤1包括以下步骤:(1)构建用于判断远程控制软件登陆成功与否的随机森林二分类模型;(2)获取以下标注数据,训练随机森林二分类模型:A、在离线搭建的实验环境中,收集多种远程控制软件模拟登陆成功/失败所产生的流量标注数据;B、在现场环境中,采集合规使用的远程登录软件进行运维所产生的流量标注数据;C、在离线搭建的实验环境中,使用带有远程登陆功能的恶意脚本产生的流量标注数据;D、基于专家经验的登录失败标注数据及其相关特征;(3)使用训练好的随机森林二分类模型,对所采集远程控制软件的网络流量数据进行远程登录成功与否的分类判断,进一步筛选得到成功进行远程控制软件登录的网络流量数据,作为下一步的输入数据。3.如权利要求1所述的基于大数据分析多步实时控制链路检测方法,其特征在于,步骤2中,将成功进行远程软件登录的网络流量数据中所有会话的客户端地址和服务端地址作为一对有向关系抽出,计算网内所有会话能形成的单向无环图,每一个单向无环图以有序的方式记录每一个节点ip,抽取出所有符合业务逻辑关系的链路,得到符合实际多步控制链路的ip地址关联关系。4.如权利要求1所述的基于大数据分析多步实时控制链路检测方法,其特征在于,步骤3中,对于所有的单向无环图,将会话的开始时间点和结束时间点关联到每一条边上;对于其中的两步控制链路:A控制B后再用B控制C,记A控制B的会话开始时间点为Tb1,结束时间点Te1,B控制C的开始时间为Tb2,结束时间为Te2;存在以下时间逻辑关系,Tb2>=Tb1且Te1>=Te2,这种时间逻辑关系代表B控制C完全发生在A控制B的时间范围段之内,风险程度最高;如果存在以下时间逻辑关系,Tb2>=Tb1且Te1<Te2,则代表在A控制B结束之后,B控制C的会话才结束,时间窗口的仅有部分重合,这种行为逻辑风险相对前者较低,但也需要列入监控范围内;以此类推,获得多步控制链路的所有开始和结束时间点的先后逻
辑关系;以客户端ip和服务端ip为关联键,关联会话和单向无环图,再过滤符合以上多步控制链路时间过滤条件的单向无环图,并保留至少有两步或以上的记录,最终得到符合业务逻辑的多步远程控制链路;而对于多步控制的链路,如果每一步控制的时间窗口重叠都符合风险最高的完全重叠,则链路的步数越多,风险越高;步骤4中,对于在步骤3中发现的多步远程控制链路,对该多步远程控制链路中的设备以发送和接收的流量包为单位来采集远程控制软件的会话流量;对这些通过流量开始时间点判定出现关联流量的远程多步控制链路进行输出,按关联流量对的数量占所有开始时间对的数量的百分比降序排列输出给系统用户。5.如权利要求1所述的基于大数据分析多步实时控制链路检测方法,其特征在于,步骤5中使用以下三种算法模型分别进行可能性预测,再进行综合评估:模型一:基于移动窗口的多特征长短期时间序列二分类模型该模型使用步骤3中发现的被多步控制的网络设备的会话流量数据,按照不同的应用类型拆分和构建为以秒为单位的多特征应用流量时间序列作为机器学习模型的特征数据,时间序列是否与步骤3中发现多步控制链路存在重合时间作为二分类标注数据;通过移动时间窗口的方式将步骤3中发现的被多步远程控制的网络设备的会话流量数据构建为多特征时间序列特征数据;以上多特征时间序列的一个样本,如果其时间序列的范围与被多步远程控制的时间段有重合,则标注为类型0,否则标注为类型1;使用基于移动窗口的多特征长短期时间序列记忆模型,进行有监督学习;得到训练好的模型后,对其它还没有被控制的网络设备,提取最近一段时间内的流量特征数据,进行与训练样本相同的特征构造处理后,进入训练好的模型进行推断,获得推断为类型0的可能性,即该时间段内存在被远程软件多步控制的可能性,如果概率超过50%则进入次重点监控名单,超过90%则进入重点监控名单;通过使用该模型推理得到的类型0的概率作为得到的风险评分,记为T1;模型二:基于网络设备的资产指纹属性的机器学习模型该模型同样使用步骤3中发现的被多步控制的网络设备作为类别0的标注数据,但使用的特征为这些网络设备的资产指纹属性,这些属性为静态特征,所述属性包括:资产的操作系统、操作系统类型、资产的功能累心、资产ip的所属网段,以及资产当前正在运行的软件数量、软件类型,资产开放的端口数量、端口类型;再通过人工确认不会被远程控制的网络设备中选出一批数量相当的作为另一类标注数据,标注为1;进行二分类的有监督机器学习;最后,对于目前还没有被远程多步控制的网络设备,使用该训练好的模型进行预测,如果预测为0类别的概率超过50%,则该资产进入次重点监控名单;如果概率超过90%,在该资产进入重点监控名单;使用该模型推理得到的类型0的概率作为本模型得到的风险评分,记为T2;模型三:基于行为基线的异常远程多步控制链路检测模型在现场运行的网络系统环境中,收集所有存在于网络中的合法的多步远程控制链路,将其网络通信行为特征作为判别模型的行为基线;
该判别模型使用到的行为基线,包括多步远程控制链路的类别型特征,以及包括远程多步控制链路的各个节点对象;该类类别型特征如果出现异常,则该特征的异常度a的值记为1;如果没有出现异常,则异常度记为0;该模型还使用包括基于会话的统计型数值特征,包括上下行流量大小、上下行包数量,计算该特征在过去一个月内的均值F作为该链路的基线行为;当前检测到的统计特征值记作f,则该数值型统计特征的异常度为a=|f
‑
F|/F,即当前特征值f与基线F的差的绝对值再除以基线F;将本模型的所有特征的异常度加权求和,再归一化后,得到本模型的风险评分,记为T3,取值标准化到0到1之间;其中N为所有的基线特征数量,k为类别型变量的数量,r
k
为第k个类别型变量特征的风险分数,相应的w
k
为该特征的风险权重;j为数值型变量的数量,r
j
为第j个数值型变量特征的风险分数,相应的w
j
为该特征的风险权重;最后,如果一个资产在某时间段内,经过以上三个模型的推断判定,将三个模型的风险评分进行加权平均,得到风险评分T=a1*T1+a2*T2+a3*T3,其中权重系数为a1=0.4,a2=0.4,a3=0.2;如果一个资产设备在一定时间段内,经过各个模型的分析判别,得到的风险评分T在0.5~0.9之间,则进入次重点监控名单,如果T超过0.9,则进入重点监控名单。6.一种基于大数据分析多步实时控制链路检测系统,其特征在于,包括:流量过滤模块:采集内网环境中的远程控制软件的网络流量数据,并进行过滤...
【专利技术属性】
技术研发人员:邹凯,陈凯枫,
申请(专利权)人:广州天懋信息系统股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。