一种基于Hadoop的网络安全日志k-means聚类分析系统及方法技术方案

技术编号：12487662 阅读：56 留言：0更新日期：2015-12-11 02:07

一种基于Hadoop的网络安全日志k-means聚类分析系统及方法，包括日志数据获取子系统、日志数据混合机制存储管理子系统、日志数据分析子系统；在数据存储层，采用Hadoop与传统数据仓库协作的混合存储机制存储日志数据，并在数据访问层提供对Hive操作的接口，数据存储层和计算层从Hive引擎接收指令，通过HDFS，配合MapReduce实现对数据的高效查询分析；在对日志数据进行挖掘分析时，采用MapReduce实现k-means算法对其进行聚类挖掘分析；采用Hadoop与传统数据仓库协作架构弥补了传统数据仓库在海量数据处理、存储等方面的不足，同时也使得原来的传统数据仓库物尽所用；采用基于MapReduce的k-means算法进行聚类分析，能及时对日志数据进行安全等级评估和预警。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机信息处理
，具体涉及。
技术介绍
随着数据的爆炸，信息量的急剧增加，企业现有的传统数据仓库已经难以应付数据的增长速度。传统数据仓库通常采用高性能一体机建设，成本高，扩展性差，而且传统数据仓库仅擅长处理结构化数据，这种特性影响到传统数据仓库在面对海量异构数据时对于内在价值的挖掘，这是Hadoop与传统数据处理方式最大的区别。对于企业现有传统数据仓库我们要合理利用，同时要把已有的传统数据仓库和大数据平台整合在一起，建立一个统一的数据分析和数据处理架构，使得通过Hadoop与传统数据仓库的协作实现对网络日志的监控统计分析。Hadoop是Apache组织管理的一个开源分布式计算平台，是一个能够对大量数据进行分布式处理的软件框架。以Hadoop分布式文件系统HDFS和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性、高可扩展性、高获得性、高吞吐率等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式系统；MapReduCe分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。HDFS是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的。它的特性为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。HDFS是一个主/从(Mater/Slave)体系结构，其体系结构中有两类节点，一类是NameNode，又叫〃元数据节点〃；另一类是DataNode，又叫〃数据节点〃，这两类节点分别承担Master和Wor...

【技术保护点】
一种基于Hadoop的网络安全日志k‑means聚类分析系统，其特征在于，包括有日志数据获取子系统(11)、日志数据混合机制存储管理子系统(12)、日志数据分析子系统(13)；所述日志数据获取子系统(11)是采集所有设备的网络安全日志数据；所述日志数据混合机制存储管理子系统(12)是对所有日志数据进行管理与存储；所述日志数据分析子系统(13)是对所有日志数据进行快速查询分析处理，以及对日志数据的潜在价值进行挖掘分析。

【技术特征摘要】

【专利技术属性】
技术研发人员：高岭，苏蓉，高妮，王帆，杨建锋，雷艳婷，申元，
申请(专利权)人：西北大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人