基于K-MEANS聚类算法的数据分析系统及方法技术方案

技术编号：33910080 阅读：84 留言：0更新日期：2022-06-25 19:19

本发明专利技术涉及一种基于K

全部详细技术资料下载

【技术实现步骤摘要】
基于K
‑
MEANS聚类算法的数据分析系统及方法

[0001]本专利技术涉数据分析及
，特别涉及一种基于K
‑
MEANS聚类算法的数据分析系统及方法。

技术介绍

[0002]随着数据的爆炸，信息量的急剧增加，企业现有的传统数据仓库已经难以应付数据的增长速度。传统数据仓库通常采用高性能一体机建设，成本高，扩展性差，而且传统数据仓库仅擅长处理结构化数据，这种特性影响到传统数据仓库在面对海量异构数据时对于内在价值的挖掘，这是Hadoop与传统数据处理方式最大的区别。对于企业现有传统数据仓库我们要合理利用，同时要把已有的传统数据仓库和大数据平台整合在一起，建立一个统一的数据分析和数据处理架构，使得通过Hadoop与传统数据仓库的协作实现对网络日志的监控统计分析。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种能够将传统数据仓库和大数据平台整合在一起，建立一个统一的数据存储和数据处理架构，对海量数据挖掘深度价值的基于K
‑
MEANS聚类算法...

【技术保护点】

【技术特征摘要】
1.一种基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述系统包括：日志数据获取子系统、日志数据管理子系统和日志数据分析子系统；所述日志数据获取子系统用于采集网络安全日志数据；所述日志数据管理子系统用于对所述日志数据进行管理与存储；所述日志数据分析子系统用于对所述日志数据进行分析；所述日志数据管理子系统包括：HDFS分布式文件系统模块和协作模块；所述日志数据管理子系统，用于整合Hadoop平台和传统数据仓库。2.根据权利要求1所述的基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述日志获取子系统，用于在Linux环境下配置syslogd集中日志服务器，采用syslog方式采集记录网络安全日志数据。3.根据权利要求1所述的基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述日志数据分析子系统，用于：采用hive工具对所述日志数据进行统计；通过HiveQL查询语句生成查询计划，并存储在所述HDFS中；利用MapReduce程序调用所述查询计划对所述日志数据进行分析。4.根据权利要求1所述的基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述HDFS分布式文件系统模块用于：通过HDFS的客户端程序将文件名发送至NameNode；NameNode接收到所述文件名后，根据所述文件名查询DataNode地址；将DataNode地址发送至所述客户端；客户端根据所述DataNode地址与DataNode进行数据传输。5.根据权利要求1所述的基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述协作模块用于配置MySQL数据库作为Hive的元数据库，存储Hive的Schema表结构信息；通过Sqoop工具实现数据在传统数据仓库和Hadoop平台之间的传输。6.根据权利要求1所述的基于K
‑
MEANS聚类算法的数据分析系统，其特征在于，所述系统包括：数据源层...

【专利技术属性】
技术研发人员：唐卓，伍祚瑶，曹嵘晖，纪军刚，尹旦，宋柏森，朱纯霞，赵环，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人