一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法技术

技术编号：16918977 阅读：619 留言：0更新日期：2017-12-31 14:40

本发明专利技术涉及一种基于hadoop和spark的可视化数据挖掘分析平台，该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块；同时本发明专利技术还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法。本发明专利技术的可视化数据挖掘分析平台操作简单，要求低，方便用户灵活操作，并具有工作流保存和共享功能，使得操作更加灵活。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
本专利技术涉及可视化数据挖掘分析平台，属于信号处理
，更具体地说，本专利技术涉及一种基于hadoop和spark的可视化数据挖掘分析平台，同时，本专利技术还公开了基于该平台的数据清洗方法。
技术介绍
分布式计算框架spark适用于海量数据场景下的数据分析挖掘，spark的数据结构dataframe类似于python和R语言的dataframe，是一种结构化的数据处理结构，具有行索引和列索引。基于这些特性，可以方便、精确地对数据进行处理，dataframe本身自带了很多用于数据清洗加工的API，很多复杂的功能通过简单的调用即可实现。但是，sparkdataframe的操作需要编写脚本，要求使用者具有一定的编程能力，并且要熟悉sparkdataframe的相关API,对普通用户非常不友好。现存的另外一种技术，就是将sparkdataframe进行封装，将其中的API以可视化的方式呈现出来，用户只需要操作图形化的算子，进行简单的拖拽操作，并设置好每个算子的参数后即可构建数据清洗的流程，完成数据清洗操作，大大降低用户对大数据进行挖掘分析的难度，但是这样的可视化操作，虽然降低了操作的门槛，但是一些比较特殊的需求满足不了，操作缺乏灵活性。
技术实现思路
基于以上技术问题，本专利技术提供了一种基于hadoop和spark的可视化数据挖掘分析平台，从而解决了以往sparkdataframe操作对用户要求高，操作缺乏灵活性的技术问题；同时，本专利技术还公开了基于hadoop和spark的可视化数据挖...
一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法

【技术保护点】
一种基于hadoop和spark的可视化数据挖掘分析平台，其特征在于，该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块；其中，数据管理模块，对整个系统中的数据文件进行管理，通过http协议将数据从本地上传到系统的hdfs中，供平台中的算子使用；工作流管理模块，对平台中的工作流进行管理、增删改查，工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程；算子管理模块，对平台中封装的各类spark算子进行管理，平台对这些算子进行图形化封装，通过拖动算子对应的图形并通过连线连接各个算子，构建数据挖掘分析工作流；算子运行调度管理模块，对平台中的算子构建的工作流运行进行管理。

【技术特征摘要】
1.一种基于hadoop和spark的可视化数据挖掘分析平台，其特征在于，该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块；其中，数据管理模块，对整个系统中的数据文件进行管理，通过http协议将数据从本地上传到系统的hdfs中，供平台中的算子使用；工作流管理模块，对平台中的工作流进行管理、增删改查，工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程；算子管理模块，对平台中封装的各类spark算子进行管理，平台对这些算子进行图形化封装，通过拖动算子对应的图形并通过连线连接各个算子，构建数据挖掘分析工作流；算子运行调度管理模块，对平台中的算子构建的工作流运行进行管理。2.根据权利要求1所述的可视化数据挖掘分析平台，其特征在于，工作流管理模块提供工作流的导入和导出，导入和导出通过xml文件作为中间媒介，用于对平台中的工作流进行管理、增删改查。3.根据权利要求1所述的可视化数据挖掘分析平台，其特征在于，算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。4.根据权利要求1所述的可视化数据挖掘分析平台，其特征在于，算子运行调度管理模块中，管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。5.一种基于可视化数据挖掘分析平台的数据清洗方法,其特征在于，该方法包括以下步骤：S0基于hadoop和spark框架，在...

【专利技术属性】
技术研发人员：普雪飞，竹登虎，勇萌哲，钟颖，杨佑禄，
申请(专利权)人：成都优易数据有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人