一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法技术

技术编号:16918977 阅读:619 留言:0更新日期:2017-12-31 14:40
本发明专利技术涉及一种基于hadoop和spark的可视化数据挖掘分析平台,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;同时本发明专利技术还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法。本发明专利技术的可视化数据挖掘分析平台操作简单,要求低,方便用户灵活操作,并具有工作流保存和共享功能,使得操作更加灵活。

【技术实现步骤摘要】
一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
本专利技术涉及可视化数据挖掘分析平台,属于信号处理
,更具体地说,本专利技术涉及一种基于hadoop和spark的可视化数据挖掘分析平台,同时,本专利技术还公开了基于该平台的数据清洗方法。
技术介绍
分布式计算框架spark适用于海量数据场景下的数据分析挖掘,spark的数据结构dataframe类似于python和R语言的dataframe,是一种结构化的数据处理结构,具有行索引和列索引。基于这些特性,可以方便、精确地对数据进行处理,dataframe本身自带了很多用于数据清洗加工的API,很多复杂的功能通过简单的调用即可实现。但是,sparkdataframe的操作需要编写脚本,要求使用者具有一定的编程能力,并且要熟悉sparkdataframe的相关API,对普通用户非常不友好。现存的另外一种技术,就是将sparkdataframe进行封装,将其中的API以可视化的方式呈现出来,用户只需要操作图形化的算子,进行简单的拖拽操作,并设置好每个算子的参数后即可构建数据清洗的流程,完成数据清洗操作,大大降低用户对大数据进行挖掘分析的难度,但是这样的可视化操作,虽然降低了操作的门槛,但是一些比较特殊的需求满足不了,操作缺乏灵活性。
技术实现思路
基于以上技术问题,本专利技术提供了一种基于hadoop和spark的可视化数据挖掘分析平台,从而解决了以往sparkdataframe操作对用户要求高,操作缺乏灵活性的技术问题;同时,本专利技术还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法。为解决以上技术问题,本专利技术采用的技术方案如下:一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;基于以上技术方案,工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。基于以上技术方案,算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。基于以上技术方案,算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。本专利技术的可视化数据挖掘分析平台操作简单,要求低,方便用户灵活操作,并具有工作流保存和共享功能,使得操作更加灵活。同时,本专利技术还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法,该方法包括以下步骤:S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;S2算子集成:通过sparkdataframe的算子封装格式,在平台中集成添加各类dataframe算子;S3算子管理:在dataframe算子集成中,利用sparkdataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;S4数据清洗流程构建:自由拖拽分类目录中的dataframe算子至工作流编辑区,在满足前后逻辑正确的情况下任意构建数据清洗流程;S5导入功能:导入之前已建立并保存在本地的工作流,系统通过解析xml文件在系统中还原并建立该工作流;S6自定义数据清洗功能:在算子管理的分类目录中添加脚本编写算子,通过该算子提供的脚本编辑窗口进行spark脚本编写,并通过定义数据的输入和输出接口与其他算子间的前后数据交互;S7保存已搭建好的建模工作流;S8启动建模工作流,后台执行数据清洗;S9查看工作流运行结果。在以上方法中,所述算子集成方法包括sparkdataframe算子封装集成方法和可视化数据挖掘分析平台集成方法。在以上方法中,所述构建数据清洗流程的方式为使用可视化的箭头将各算子连接起来。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术的方法可减少手动编译开发sparkdataframe脚本的工作量,同时提供专门sparkdataframe脚本编写窗口,让有能力的用户通过编写脚本来灵活的实现各种定制化的数据清洗功能,并提供完整的数据清洗工作流保存和共享功能,实现使用sparkdataframe进行高效数据清洗和清洗工作流多用户共享,从而降低了sparkdataframe的操作难度,提高了sparkdataframe的操作灵活性。附图说明图1是本专利技术的结构示意图;图2是本方法的工作流程图;图3是算子集成流程示意图;图4是自定义数据清洗功能的流程图;图5是具体实施例的工作流程图;具体实施方式下面结合附图对本专利技术作进一步的说明。本专利技术的实施方式包括但不限于下列实施例。如图1-4所示,一种基于hadoop和spark的可视化数据挖掘分析平台,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理;上述工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。上述算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。上述算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。基于上述的基于hadoop和spark的可视化数据挖掘分析平台,本实施例还公开了基于hadoop和spark的可视化数据挖掘分析平台的数据清洗方法,该方法包括以下步骤:S0基于hadoop和spark框架,在平台中对spark中与数据处理相关的算子进行图形化封装;S1数据上传:通过http协议将数据从本地上传到平台的hdfs中;S2算子集成:通过sparkdataframe的算子封装格式,在平台中集成添加各类dataframe算子;S3算子管理:在dataframe算子集成中,利用sparkdataframe算子分类目录式管理方法,将不同dataframe算子按功能进行分类,平台按分类结果对算子进行可视化的管理及展示,并形成分类目录;本文档来自技高网...
一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法

【技术保护点】
一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理。

【技术特征摘要】
1.一种基于hadoop和spark的可视化数据挖掘分析平台,其特征在于,该平台包括数据管理模块、工作流管理模块、算子管理模块及算子运行调度管理模块;其中,数据管理模块,对整个系统中的数据文件进行管理,通过http协议将数据从本地上传到系统的hdfs中,供平台中的算子使用;工作流管理模块,对平台中的工作流进行管理、增删改查,工作流是各个算子按执行顺序连接起来构成的数据挖掘分析流程;算子管理模块,对平台中封装的各类spark算子进行管理,平台对这些算子进行图形化封装,通过拖动算子对应的图形并通过连线连接各个算子,构建数据挖掘分析工作流;算子运行调度管理模块,对平台中的算子构建的工作流运行进行管理。2.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,工作流管理模块提供工作流的导入和导出,导入和导出通过xml文件作为中间媒介,用于对平台中的工作流进行管理、增删改查。3.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子管理模块中各类spark算子种类包括数据抽取、数据加载、数据转换、数据建模以及建模评估。4.根据权利要求1所述的可视化数据挖掘分析平台,其特征在于,算子运行调度管理模块中,管理内容包括工作流启动和停止、工作流中各个算子顺序执行的调度。5.一种基于可视化数据挖掘分析平台的数据清洗方法,其特征在于,该方法包括以下步骤:S0基于hadoop和spark框架,在...

【专利技术属性】
技术研发人员:普雪飞竹登虎勇萌哲钟颖杨佑禄
申请(专利权)人:成都优易数据有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1