一种基于大数据的实时网络异常行为检测系统及方法技术方案

技术编号:17974327 阅读:60 留言:0更新日期:2018-05-16 13:55
本发明专利技术公开了一种基于大数据的实时网络异常行为检测系统,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;所述流量采集层,包括采集装置;所述数据管道层,包括采用分布式消息系统的数据管道服务模块;所述实时计算层,包括流式计算模块;所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述数据分析层,包括模型训练模块、实时检测模块;所述应用层,包括可视化告警模块。还公开了一种基于大数据的实时网络异常行为检测方法。本发明专利技术数据采集效率高,数据传输稳定可靠,能够对高级持续性威胁进行高效检测和分析,可溯源取证,方便分析人员检索,模型训练效率高,误报率低。

【技术实现步骤摘要】
一种基于大数据的实时网络异常行为检测系统及方法
本专利技术属于网络安全管理
,具体涉及一种基于大数据的实时网络异常行为检测系统及方法。
技术介绍
随着网络应用的不断发展,如何从网络数据报文中发现异常行为,并给出预警,已经成为当前网络安全管理的一个重要研究领域。现有的网络流量异常检测平台大多数依赖SNMP或者Netflow之类的采集方式,SNMP比较依赖路由器的性能,采集效率比较低下,而Netflow只提供的流的统计信息,对于数据包本身的信息并没有采集下来,不能为后续全流量的分析提供数据。其次,在流式计算过程中,现有的基于大数据的网络流量异常检测平台采用的是像sparkstreaming之类的流式计算引擎,SparkStreaming是基于数据片集合(RDD)进行小批量处理的,在流式处理方面的性能不够理想。另外,现有基于大数据的网络流量异常检测平台多是基于netflow或者ipfix技术,对网络流量进行特征匹配或者基于简单的统计,对于像高级持续性威胁(APT)这类的攻击很难进行检测。
技术实现思路
针对现有技术中所存在的不足,本专利技术提供了一种数据采集效率高、数据传输稳定可靠、能够对高级持续性威胁(APT)进行高效检测和分析、可溯源取证、方便分析人员检索、模型训练效率高、误报率低的基于大数据的实时网络异常行为检测系统。一种基于大数据的实时网络异常行为检测系统,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;所述流量采集层,包括对数据源进行流量采集的采集装置,所述采集装置提供流量采集服务,包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务;所述采集装置通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中;所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式;所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统;所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取;所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务;所述流式计算模块从数据管道层获取经过预处理的数据,通过特征反序列化与切割服务得到基础特征,通过特征统计分析服务得到统计特征,再将所述统计特征和协议特征追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中;所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中;所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述分布式文件服务模块,用于保存原始数据包;所述分布式数据库模块,用于保存实时计算层计算出来的总的特征,以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系;所述检索服务模块,用于存储计算结果数据,以及快速检索所述计算结果数据供应用层进行展示;所述数据分析层,包括模型训练模块、实时检测模块;所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中;所述应用层,包括可视化告警模块,所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。进一步地,所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块,所述三种模块均能提供所述流量采集服务。进一步地,所述数据管道层包括多个数据管道节点。进一步地,所述统计特征包括但不限于:过去X秒内,与当前包具有相同目标的主机的数据包数;过去X秒内,与当前包具有相同服务的主机的数据包数;过去X秒内,与当前包具有相同目标主机的数据包的百分比;过去X秒内,与当前包具有相同服务的主机的数据包的百分比;过去X秒内,与当前包具有不同目标主机的数据包的百分比;前Y个数据包中,与当前包具有相同目标的主机的数据包数;前Y个数据包中,与当前包具有相同服务的主机的数据包数;前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;前Z个连接中,与当前包具有相同目标的主机的数据包数;前Z个连接中,与当前包具有相同服务的主机的数据包数;前Z个连接中,与当前包具有相同目标主机的数据包的百分比;前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;前Z个连接中,与当前包具有不同目标主机的数据包的百分比;所述X的取值范围为5~50,Y的取值范围为500~5000,Z的取值范围为50~500。进一步地,所述分布式消息系统采用kafka,所述流式计算模块采用Flink来进行流式计算,所述分布式文件服务模块采用HDFS,所述分布式数据库模块采用Hbase,所述检索服务模块采用ElasticSearch来实现。进一步地,所述应用层还包括智能分析模块和APT关联分析模块,所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息;所述APT关联分析模块用于对各类渗透、窃密行为进行精准识别,并快速追踪问题源、提取异常数据、还原异常通讯现象。本专利技术还公开了一种基于大数据的实时网络异常行为检测方法。一种基于大数据的实时网络异常行为检测方法,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层,具体包括以下步骤:S1:流量采集层从数据源采集流量数据,并对数据进行预处理,之后将预处理后的数据发送到数据管道层中的分布式消息系统,并将原始数据包保存到数据存储层;S2:实时计算层从所述分布式消息系统中获取经过预处理的数据,从所述数据中获得基础特征并提取统计特征,再将所述统计特征和协议特征追加到基础特征中形成总的特征,然后将总的特征保存到数据存储层中;S3:数据分析层从数据存储层中获取总的特征并将所述特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;S4:数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到数据存储层中;S5:应用层检索数据存储层中保存的可疑流量信息并对其进行展示和告警。进一步地,所述步骤S1中的预处理包括以下步骤:S11:对采集自数据源的数据包进行解析,给每个数据包打上唯一标签;S12:对解析后的流量数据特征进行提取;S13:将提取后的数据通过序列化转换成二进制格式。进一步地,所述步骤S2还包括以下步骤:S21:实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层;进一本文档来自技高网...
一种基于大数据的实时网络异常行为检测系统及方法

【技术保护点】
一种基于大数据的实时网络异常行为检测系统,其特征在于:包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;所述流量采集层,包括对数据源进行流量采集的采集装置,所述采集装置提供流量采集服务,包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务;所述采集装置通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中;所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式;所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统;所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取;所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务;所述流式计算模块从数据管道层获取经过预处理的数据,通过特征反序列化与切割服务获得基础特征,通过特征统计分析服务获得统计特征,再将所述统计特征和协议特征追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中;所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中;所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述分布式文件服务模块,用于保存原始数据包;所述分布式数据库模块,用于保存实时计算层计算出来的总的特征,以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系;所述检索服务模块,用于存储计算结果数据,以及快速检索所述计算结果数据供应用层进行展示;所述数据分析层,包括模型训练模块、实时检测模块;所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中;所述应用层,包括可视化告警模块,所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。...

【技术特征摘要】
1.一种基于大数据的实时网络异常行为检测系统,其特征在于:包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;所述流量采集层,包括对数据源进行流量采集的采集装置,所述采集装置提供流量采集服务,包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务;所述采集装置通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中;所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式;所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统;所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取;所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务;所述流式计算模块从数据管道层获取经过预处理的数据,通过特征反序列化与切割服务获得基础特征,通过特征统计分析服务获得统计特征,再将所述统计特征和协议特征追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中;所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中;所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述分布式文件服务模块,用于保存原始数据包;所述分布式数据库模块,用于保存实时计算层计算出来的总的特征,以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系;所述检索服务模块,用于存储计算结果数据,以及快速检索所述计算结果数据供应用层进行展示;所述数据分析层,包括模型训练模块、实时检测模块;所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中;所述应用层,包括可视化告警模块,所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。2.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块,所述三种模块均能提供所述流量采集服务。3.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述数据管道层包括多个数据管道节点。4.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述统计特征包括但不限于:过去X秒内,与当前包具有相同目标的主机的数据包数;过去X秒内,与当前包具有相同服务的主机的数据包数;过去X秒内,与当前包具有相同目标主机的数据包的百分比;过去X秒内,与当前包具有相同服务的主机的数据包的百分比;过去X秒内,与当前包具有不同目标主机的数据包的百分比;前Y个数据包中,与当前包具有相同目标的主机的数据包数;前Y个数据包中,与当前包具有相同服务的主机的数据包数;前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;前Z个连接中,与当前包具有相同目标的主机的数据包数;前Z个连接中,与当前包具有...

【专利技术属性】
技术研发人员:高英靳亚洽刘煜李若鹏
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1