一种基于Hadoop的网络安全事件分析方法技术

技术编号:14784089 阅读:49 留言:0更新日期:2017-03-10 16:24
本发明专利技术公开了一种基于Hadoop的网络安全事件分析方法,利用hadoop在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点,采用HDFS的高容错性、高伸缩性优点,允许用户将Hadoop部署在普通低廉的硬件上,形成分布式系统;MapReduce提供开发并行应用程序,在集群上实现分布式计算和并行任务处理;HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,数据采集系统从各个网络安全设备采集网络安全事件信息并生成数据文件,使用API或命令将它们存入HDFS,数据由HDFS在多个普通硬件资源的节点上分布式存储,然后使用MapReduce对事件信息进行分析并输出分析结果进行展示MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成Hadoop分布式集群的主要任务。

【技术实现步骤摘要】

本专利技术涉及网络安全领域,具体涉及一种基于Hadoop的网络安全事件分析方法
技术介绍
网络安全管理平台的应用,能够实现整体网络安全状态的可视化监测和配置,简化人工分析和管理的复杂度,节省网络安全人力资源,并为快速的应急响应处置提供技术依据。但随着信息化规模日渐增长,网络安全防护的范围越来越广,安全管理的复杂性也越来越高。应用系统使用越多,安全的数据量越大,对网络安全管理平台数据处理的要求越来越高,处理的海量数据有可能达到TB、甚至PB级。如果数据处理效率无法应对日益增长的数据规模要求,将对网络安全管理平台的适用性、可用性、可靠性等产生影响,人工维护的成本也可能大大增加。可以说,大数据时代的到来,海量事件的分析处理将是网络安全管理平台面临的最严峻的挑战之一。Hadoop是Apache的一个开源分布式计算平台。由于Hadoop在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点,使得它在众多行业和科研领域中被广泛采用:雅虎通过Hadoop支持广告系统和Web搜索的研究,Facebook用其支持数据分析和机器学习,百度使用Hadoop进行搜索日志的分析和网页数据的挖掘工作,淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据等。HDFS,Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。[1]当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
技术实现思路
本专利技术要解决的技术问题是:本专利技术应用Hadoop处理海量事件的技术,提出了一种基于Hadoop的网络安全事件分析方法,旨在为将来提升网络安全管理平台大数据量的处理效率提供解决思路。本专利技术所采用的技术方案为:一种基于Hadoop的网络安全事件分析方法,利用hadoop在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点,采用HDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署在普通低廉的硬件上,形成分布式系统;MapReduce提供开发并行应用程序,在集群上实现分布式计算和并行任务处理;HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,数据采集系统从各个网络安全设备采集网络安全事件信息并生成数据文件,使用API或命令将它们存入HDFS,数据由HDFS在多个普通硬件资源的节点上分布式存储,然后使用MapReduce对事件信息进行分析并输出分析结果进行展示MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成Hadoop分布式集群的主要任务。所述方法采用分布式存储HDFS集群,由一个NameNode和若干个DataNode组成,如附图1所示。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据;HDFS允许用户以文件的形式存储数据;从内部来看,文件被分成若干个数据块(Block)并存放在一组DataNode上;NameNode执行文件系统的命名空间操作,如打开、关闭、重命名文件或目录等,它也负责数据块到具体DataNode的映射;DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制.所述MapReduce数据处理流程是通过利用一个输入的key/value对集合来产生一个输出的key  value对集合,对应MapReduce库的两个函数Map和Reduce,一个MapReduce作业把输入的数据集切分为若干独立的数据块,由Map任务以并行的方式处理,先进行Map输出的排序,然后把结果输入给Reduce任务;作业的输入和输出都会被存储在文件系统中,每一个Map任务和每一个Reduce任务均能够同时运行于一个单独的计算节点上。所述Hadoop集群采用主从(Master/Slave)模式,在Hadoop的架构中,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个。所述方法的进程如下:1)数据采集系统从各个网络安全设备采集网络安全事件信息并生成数据文件,使用API或命令将它们存入HDFS,数据由HDFS在多个普通硬件资源的节点上分布式存储;2)使用MapReduce对事件信息进行分析并输出分析结果进行展示;MapReduce的输入即为来自存储在HDFS中的网络安全事件信息(可支持文本、二进制、数据库等多种格式),使用MapReduce对事件信息进行分析过程时,用户需要自定义Mapper、Reducer函数;3)Hadoop根据设定的InputDataFormat来将输入文件分割成一个个(key1,value1)对,然后将这些(key1,value1)集合传递给map函数作输入处理,map函数根据输入(key1,value1),形成中间数据(key2,value2)并在节点间进行交换;4)在map过程完成之后,Hadoop将这些生成的中间数据(key2,value2)按照Key2进行分组(sort),形成<Key2,list(Value2)>,之后传递给reduce函数,在该函数中最终得到程序的输出结果<Key3,Value3>;5)reduce将自己的输出写入到结果文件中,使用output data format来配置输出的文件格式。本专利技术有益效果:本专利技术应用Hadoop处理海量事件的技术,基于HDFS和MapReduce的Hadoop集群架构也符合网络安全管理平台的应用模式,提出了一种基于Hadoop的网络安全事件分析方法,大大提升网络安全管理平台大数据量的处理效率。应对了大数据时代的到来给海量事件的分析处理的网络安全管理平台带来的挑战,实现整体网络安全状态的可视化监测和配置,简化人工分析和管理的复杂度,节省网络安全人本文档来自技高网
...

【技术保护点】
一种基于Hadoop的网络安全事件分析方法,其特征在于:利用hadoop在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点,采用HDFS的高容错性、高伸缩性优点,允许用户将Hadoop部署在普通低廉的硬件上,形成分布式系统;MapReduce提供开发并行应用程序,在集群上实现分布式计算和并行任务处理;HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,数据采集系统从各个网络安全设备采集网络安全事件信息并生成数据文件,使用API或命令将它们存入HDFS,数据由HDFS在多个普通硬件资源的节点上分布式存储,然后使用MapReduce对事件信息进行分析并输出分析结果进行展示MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成Hadoop分布式集群的主要任务。

【技术特征摘要】
1.一种基于Hadoop的网络安全事件分析方法,其特征在于:利用hadoop在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点,采用HDFS的高容错性、高伸缩性优点,允许用户将Hadoop部署在普通低廉的硬件上,形成分布式系统;MapReduce提供开发并行应用程序,在集群上实现分布式计算和并行任务处理;HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,数据采集系统从各个网络安全设备采集网络安全事件信息并生成数据文件,使用API或命令将它们存入HDFS,数据由HDFS在多个普通硬件资源的节点上分布式存储,然后使用MapReduce对事件信息进行分析并输出分析结果进行展示MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成Hadoop分布式集群的主要任务。
2.根据权利要求1所述的一种基于Hadoop的网络安全事件分析方法,其特征在于:所述方法采用分布式存储HDFS集群,由一个NameNode和若干个DataNode组成,其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据;HDFS允许用户以文件的形式存储数据;从内部来看,文件被分成若干个数据块并存放在一组DataNode上;NameNode执行文件系统的命名空间操作,也负责数据块到具体DataNode的映射;DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制。
3.根据权利要求1或2所述的一种基于Hadoop的网络安全事件分析方法,其特征在于:所述MapReduce数据处理流程是利用一个输入的key/value对集合来产生一个输出的key  value对集合,对应MapReduce库的两个函数Map和Reduce,一个MapReduce作业把输入的数据集切分为若干独立的数据块,由Map任务以...

【专利技术属性】
技术研发人员:黄敏
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1