当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于R和HighCharts的数据挖掘可视化平台的构建方法技术

技术编号:15253972 阅读:103 留言:0更新日期:2017-05-02 19:46
本发明专利技术公开了一种基于R和HighCharts的数据挖掘可视化平台的构建方法,包括以下步骤:S1:设计并实现数据上传构件;S2:设计并实现数据预处理构件;S3:设计并实现数据可视化构件;S4:设计并实现数据建模构件;S5:设计并实现结果可视化构件;S6:集成和部署数据挖掘可视化平台,对所述步骤S1至S5中实现的各个构件提供配置接口,并提供以编辑配置文件的方式定制数据挖掘可视化平台功能的用户接口。本方法使得原始数据、挖掘流程、挖掘结果直观地展现在用户面前,具有良好的交互性,也大大提高了用户的参与度和体验。

Construction method of data mining visualization platform based on R and HighCharts

The invention discloses a construction method of R mining and visualization platform based on the HighCharts data, which comprises the following steps: S1: design and implementation of data upload component; S2: design and implementation of data preprocessing component; S3: design and implementation of data visualization component; S4: design and implementation of data modeling: Design and component; S5 the visual component; S6: integration and deployment of data mining visualization platform, provides the configuration interface for each component to achieve the steps S1 to S5, and provide the user interface to edit the configuration file of the custom data mining visualization platform. This method makes the original data, the mining process, the results of the mining directly in front of the user, with good interaction, but also greatly enhance the user's participation and experience.

【技术实现步骤摘要】

本专利技术涉及数据挖掘技术,特别是涉及一种基于R和HighCharts的数据挖掘可视化平台的构建方法。
技术介绍
数据挖掘(DataMining)是一种从海量的历史业务数据中,透过数理分析模式提取出蕴藏于其中的潜在信息的过程。数据挖掘是一个不断重复、不断修改、不断迭代的过程,主要包括:数据采集、数据预处理、数据分析、结果可视化显示和模型评估等流程。目前,数据挖掘已经在银行、电信、保险、交通、零售等领域得到了广泛的应用。数据挖掘可视化技术可以将隐藏于数据中的抽象信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。因此,可视化技术已经成为数据挖掘不可或缺的一部分。现有的数据挖掘平台,尚存在以下问题:原始数据展现形式较为单调;挖掘过程中用户可自行设置参数的方式简单,导致用户参与度过低;挖掘结果的展现图形以静态化展示为主,较难以通过界面交互方式开展。另外,R与Weka虽均提供了成熟的分类、聚类、关联规则等数据挖掘技术,也可以用较为丰富的图形来展现挖掘结果。但是,美中不足地是两者生成的可视化图形效果一般,且绝大部分图形为静态图,没有交互性或是交互性较差。
技术实现思路
专利技术目的:本专利技术的目的是提供一种基于R和HighCharts的数据挖掘可视化平台的构建方法,充分利用R语言所具有的丰富的统计分析、数据挖掘能力以及HighCharts强大的可视化效果,用以解决现有技术中存在的缺陷,例如:交互性差、可视化效果一般等。技术方案:本专利技术所述的基于R和HighCharts的数据挖掘可视化平台的构建方法,包括以下步骤:S1:设计并实现数据上传构件,在客户端与服务器网络通畅的情况下,通过数据上传构件建立客户端与服务器之间的TCP连接,然后以数据流的形式将用户待挖掘的数据集上传至服务器,服务器端对收到的数据集进行解析并保存;S2:设计并实现数据预处理构件,通过数据预处理构件对步骤S1中解析得到的数据进行缺失值、异常值处理,并实现多化的用户接口,以便让用户按需选择相应的缺失值、异常值处理方法;S3:设计并实现数据可视化构件,基于HighCharts技术,通过数据可视化构件将步骤S2处理后的数据以图形化形式进行展现,并提供给用户相应的交互功能;S4:设计并实现数据建模构件,所述数据建模构件基于R语言的统计分析和数据挖掘包实现,它封装了数据挖掘模型,为用户提供图形界面接口,使用户能够自行设置相应的分析模型及参数;S5:设计并实现结果可视化构件,所述结果可视化构件使用Java实现,它提取数据建模构件挖掘到的结果,并把结果传递给表现层的HighCharts组件进行保存,绘制出相应的可视化结果,并展现给用户;S6:集成和部署数据挖掘可视化平台,对所述步骤S1至S5中实现的各个构件提供配置接口,并提供以编辑配置文件的方式定制数据挖掘可视化平台功能的用户接口。进一步,所述步骤S3中的图形包括散点图、折线图、条形图、饼状图、区域图和区域曲线图。进一步,所述步骤S4中的数据挖掘模型包括分类、聚类和关联规则。进一步,所述步骤S2中的缺失值处理方法为:取所述缺失值上下两个邻近值的平均值来代替所述缺失值,或者取所述缺失值所在列的所有属性值中出现频率最高的值来代替所述缺失值。进一步,所述步骤S2中的异常值处理方法为:直接剔除所述异常值,或者取所述异常值上下两个邻近值的平均值来代替所述异常值。有益效果:与现有技术相比,本专利技术具有如下的有益效果:本专利技术公开了一种数据挖掘可视化平台的构建方法,它使得原始数据、挖掘流程、挖掘结果直观地展现在用户面前,具有良好的交互性,也大大提高了用户的参与度和体验。附图说明图1为本专利技术具体实施方式的数据挖掘可视化平台的结构框图;图2为本专利技术具体实施方式的数据挖掘可视化平台的构建方法的流程图;图3为本专利技术具体实施方式的挖掘结果数据流向的示意图。具体实施方式下面结合附图和具体实施方式,对本专利技术的技术方案作进一步的介绍。本具体实施方式公开了一种基于R和HighCharts的数据挖掘可视化平台的构建方法,如图2所示,包括以下步骤:S1:设计并实现数据上传构件,在客户端与服务器网络通畅的情况下,通过数据上传构件建立客户端与服务器之间的TCP连接,然后以数据流的形式将用户待挖掘的数据集上传至服务器,服务器端对收到的数据集进行解析并保存。S2:设计并实现数据预处理构件,通过数据预处理构件对步骤S1中服务器解析得到的数据进行缺失值与异常值处理,并把不同处理方法以不同接口提供给用户,供用户按需选择。其中,缺失值有两种处理方法:一是取所述缺失值上下两个邻近值的平均值来代替所述缺失值;二是取所述缺失值所在列的所有属性值中出现频率最高的值来代替所述缺失值。异常值也有两种处理方法:一是直接剔除所述异常值;二是取所述异常值上下两个邻近值的平均值来代替所述异常值。S3:设计并实现数据可视化构件:将步骤S2处理后的数据用图形进行展现,并基于HighCharts技术实现图形与用户的交互。图形包括散点图、折线图、条形图、饼状图、区域图和区域曲线图。其中,散点图能直观地展现出该因子的整体分布情况;折线图能使该因子的变化趋势一目了然地呈现在用户面前;条形图则是一种展现频数分布最常用的表现形式;饼状图能直观展现出该因子的不同值所占的比例;区域图和区域曲线图能比较两个或多个数据集间的差异。具体步骤是:将步骤S2处理后的数据进行因子统计,输出源数据各属性的数值-频数矩阵;基于输出矩阵,利用HighCharts相应技术绘制出效果绚丽的图形。S4:设计并实现数据建模构件,数据建模构件基于R语言的统计分析和数据挖掘包实现,它封装了数据挖掘模型,为用户提供图形界面接口,使用户能够自行设置相应的分析模型及参数。S5:设计并实现结果可视化构件,结果可视化构件使用Java实现,它提取数据建模构件挖掘到的结果,并把结果传递给表现层的HighCharts组件进行保存,绘制出相应的可视化结果,并展现给用户。具体步骤是:将清洗后的数据存入数据库,当客户端发送交互请求时,调度数据库执行相应的SQL语句,并将所得结果返回客户端供用户查看。S6:集成和部署数据挖掘可视化平台,对所述步骤S1至S5中实现的各个构件提供配置接口,并提供以编辑配置文件的方式定制数据挖掘可视化平台功能的用户接口。按照本方法构建出的数据挖掘可视化平台的结构如图1所示,平台分为四层,分别是表现层、控制层、逻辑层和数据层。表现层即客户端,主要用来收集用户数据、数据可视化,将数据挖掘结果进行可视化显示和用户进行交互。服务器端分为控制层、逻辑层和数据层,控制层主要用来过滤用户的错误操作请求,以便造成系统不可修复的后果,同时控制层还担任着调度模型的职责;逻辑层主要用来处理复杂的业务逻辑,对R语言算法封装,调用JRI进行Java和R语言的连接;数据层主要用来处理复杂的业务逻辑,对R语言算法封装,调用JRI进行Java和R语言的连接。平台在表现层获取用户自行设置的参数,然后发送到服务器端,服务器端的控制层负责过滤用户的错误操作,并将参数传递至逻辑层,调度逻辑层连接数据层,完成每个流程具体的业务,并将挖掘结果返回客户端展现给用户。下面介绍一下平台的一些功能:(1)原始数据可视化a、对数据进行清洗,本文档来自技高网...

【技术保护点】
一种基于R和HighCharts的数据挖掘可视化平台的构建方法,其特征在于:包括以下步骤:S1:设计并实现数据上传构件,在客户端与服务器网络通畅的情况下,通过数据上传构件建立客户端与服务器之间的TCP连接,然后以数据流的形式将用户待挖掘的数据集上传至服务器,服务器端对收到的数据集进行解析并保存;S2:设计并实现数据预处理构件,通过数据预处理构件对步骤S1中解析得到的数据进行缺失值、异常值处理,并实现多化的用户接口,以便让用户按需选择相应的缺失值、异常值处理方法;S3:设计并实现数据可视化构件,基于HighCharts技术,通过数据可视化构件将步骤S2处理后的数据以图形化形式进行展现,并提供给用户相应的交互功能;S4:设计并实现数据建模构件,所述数据建模构件基于R语言的统计分析和数据挖掘包实现,它封装了数据挖掘模型,为用户提供图形界面接口,使用户能够自行设置相应的分析模型及参数;S5:设计并实现结果可视化构件,所述结果可视化构件使用Java实现,它提取数据建模构件挖掘到的结果,并把结果传递给表现层的HighCharts组件进行保存,绘制出相应的可视化结果,并展现给用户;S6:集成和部署数据挖掘可视化平台,对所述步骤S1至S5中实现的各个构件提供配置接口,并提供以编辑配置文件的方式定制数据挖掘可视化平台功能的用户接口。...

【技术特征摘要】
1.一种基于R和HighCharts的数据挖掘可视化平台的构建方法,其特征在于:包括以下步骤:S1:设计并实现数据上传构件,在客户端与服务器网络通畅的情况下,通过数据上传构件建立客户端与服务器之间的TCP连接,然后以数据流的形式将用户待挖掘的数据集上传至服务器,服务器端对收到的数据集进行解析并保存;S2:设计并实现数据预处理构件,通过数据预处理构件对步骤S1中解析得到的数据进行缺失值、异常值处理,并实现多化的用户接口,以便让用户按需选择相应的缺失值、异常值处理方法;S3:设计并实现数据可视化构件,基于HighCharts技术,通过数据可视化构件将步骤S2处理后的数据以图形化形式进行展现,并提供给用户相应的交互功能;S4:设计并实现数据建模构件,所述数据建模构件基于R语言的统计分析和数据挖掘包实现,它封装了数据挖掘模型,为用户提供图形界面接口,使用户能够自行设置相应的分析模型及参数;S5:设计并实现结果可视化构件,所述结果可视化构件使用Java实现,它提取数据建模构件挖掘到的结果,并把结果传递给表现层的HighCharts组件进行保存,绘制出相应...

【专利技术属性】
技术研发人员:叶枫范仕良王志坚陈勇
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1