一种大数据可视化分析方法技术

技术编号:14182740 阅读:491 留言:0更新日期:2016-12-14 12:08
本发明专利技术涉及一种大数据可视化分析方法,包括:整合大规模数据源,存储后,从中抽取用于分析的样例数据,进行去燥操作,得到分析样本,进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存。最后,以可视化图形方式将数据模型进行输出。本方法可处理海量数据,以更友好的方式查询大量数据,支持函数,数据处理速度快,可视化呈现方式多样。

A visualization method for large data analysis

The present invention relates to a large data visualization analysis method, including: the integration of large data source, storage, for example data analysis and extract to dryness, operation, analysis samples, sorting, statistical analysis, find out the internal rules of data generation, data model, save in the form of DF. Finally, the output of the data model is visualized. This method can deal with massive data, query a large amount of data in a more friendly way, support the function, the data processing speed is fast, and the visual presentation is various.

【技术实现步骤摘要】

本专利技术涉及数据分析
,尤其涉及一种大数据可视化分析方法
技术介绍
随着IT系统的蓬勃发展,各行各业积聚了大量的数据,对大量数据进行分析,挖掘有价值的信息来促进生产和销售已越来越重要。而承担具体分析工作的行业专家或最终用户,虽然具备丰富的业务知识和一定的IT技能,使用EXCEL数据透视表进行分析,也能处理大量规范数据。但是,用EXCEL数据透视功能进行数据分析,却存在如下缺点:1、只能处理*.xls、*.xlsx格式的数据,对其它格式的数据无能为力;2、处理的数据量有限(*.xls格式只能处理65536行、256列,*.xlsx格式只能处理1048576行、16384列);3、当数据量较多时,运行速度十分慢。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种大数据可视化分析方法,本方法可处理海量数据,以更友好的方式查询大量数据,支持函数,数据处理速度快,可视化呈现方式多样。本专利技术是通过以下技术方案达到上述目的:一种大数据可视化分析方法,包括如下步骤:(1)整合大规模数据源,并将大规模数据源存储到分布式数据库;(2)通过配置引擎界面配置参数,从大规模数据源中抽取用于分析的样例数据;(3)对样例数据进行去燥操作,消除无关数据,得到分析样本;(4)对分析样本进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存;(5)将数据模型以可视化图形方式进行输出。作为优选,所述的大规模数据源包括EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源中的任意一种或组合。作为优选,所述的去燥操作通过调用UDF公式和lambda公式实现。作为优选,所述的去燥操作为增加、选择、更改类型、字符串处理中的任意一种操作或组合操作。作为优选,所述的UDF公式为:DF2=@udf DF1by udf0.UDF0其中,DF2为运算后的返回结果、DF1为原始数据、UDF0为包函数。作为优选,所述的包函数包括new_empty_df、clone_df、df_agg_count、df_T、df_types、df_desc、df_fillna、df_set_index、df_drop_col、df_drop_icol、df_drop_row、df_limit、df_append、df_reset_index、df_unstack、df_min_max、df_mean_std、df_10k、df_worktime、df_kmeans中的任意一种。作为优选,所述的lambda公式为:DF=lambda x:fn(x)其中,DF为运算后的返回结果、x为传入值。作为优选,所述的可视化图形包括折线图、柱状图、排名表、循环滚动播放图、信息块、散点图、堆积图、饼图、地图热力图、地图散点图、地图联动图、热力图、气泡图、玫瑰图、柱线图、面积区域图、横向柱状图、桑基图、迁徙图、关系图中的一种或组合。本专利技术的有益效果在于:(1)可处理海量数据。(2)以更友好的方式查询大量数据。通过简单的拖拽、伸拉,就可以随意查看任何数据,查看粒度细化到列。(3)支持函数。通过不断积累,形成一个函数库,需要时直接调用或直接定义,不用费神去命名,不用每次分析都写新程序;(4)数据处理速度快。采用基于内存的多引擎计算架构,所有的数据装载入内存进行快速实时计算,每个引擎相互独立隔离,可以根据需要进行并行计算;(5)可视化呈现方式多样。可以将数据以易于观察的可视化图形方式表现出来,更好的帮助分析师处理和比较数据。附图说明图1是本专利技术的一种大数据可视化分析方法的流程图。具体实施方式下面结合具体实施例对本专利技术进行进一步描述,但本专利技术的保护范围并不仅限于此:实施例:如图1所示,本专利技术的一种大数据可视化分析方法,整合大规模数据源,存储后,从中抽取用于分析的样例数据,进行去燥操作,得到符合分析样本,进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存。最后,以可视化图形方式将数据模型进行图形化输出。具体地,包括以下步骤:步骤1:将存储于不同地理位置的EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源,通过网络连接进行物理通信。步骤2:在配置引擎界面,通过配置数据源IP地址及端口号,将数据源整合到分布式数据库UDB,存储为二维表结构的DF表,每个表格由一个索引列(可以用来竖向取值)和多个数据列组成;步骤3:选择任意一个或多个数据源,并在引擎界面显示选择后的数据源的库、表及字段信息;已选择的数据载入内存进行处理。步骤4:调用UDF公式和lambda公式,修正、清洗不合适数据,检查错误数据,为分析提供必要的基础数据,去除燥音数据。UDF公式十分简洁,只需通过DF表设定原始数据,通过包函数设置参数,进行运算后即可返回结果DF2。DF2=@udf DF1by udf0.UDF0包函数例如:1、增加:在空表df0中添加行,该行包含“中国、浙江、杭州”,最终数据存储在df表a中。a=@udf df0@sys by udf0.df_append with(中国,浙江,杭州)2、选择:取log表的前三行c=@udf log by udf0.df_limit with(0,3)lambda函数,是一个匿名函数,即没有函数名的函数,可以当作对象传来传去并且随时调用。当用户在需要使用一个函数,但是又不想费神去命名时使用。语法结构更加接近人的思维,以更加自然的方式来实现。用法则更为简洁、方便:DF=lambda x:fn(x)其中,DF为运算后的返回结果、x为传入值。例如:1、更改类型:原始格式是12-01-2014 12:12:12,对其进行处理,在未尾新增“000”变换日期格式为2014-12-01 12:12:12.000rsj1=lambda lrsj by(x:\%s-%s%s.000\%(x[6:10],x[0:5],x[11:20]))2、字符串处理:将变量值的0-10位和11-23位,通过字母T拼接起来,将结果保存到day2day2=@sdf sys_lambda with($date,x:\%sT%s\%(x[0:10],x[11:23]))步骤5:通过步骤4,得到分析样本数据,对分析样本进行排序、分组统计,找出数据的内在规律。例如,对数据进行排序,按字段age升序排列log2=order log by age按字段age降序排列将df表按hour字段进行分组gt=group df by hour对d字段求和,d2字段求最小值,d3字段求标准差df2=agg gt by(d:sum,d2:min,d3:std)步骤6:生成数据模型,以DF表的形式保存;将以上数据处理过程封装,作为数据模型,以<key,value>的格式存储于SSDB数据库。步骤7:以可视化图形展示DF表。通过折线图、柱状图、排名表、循环滚动播放图、信息块、散点图、堆积图、饼图、地图热力图、地图散点图、地图联动图、热力图、气泡图、玫瑰图中的一种或组合,将DF表的数据进行可视化输出。以上的所述乃是本专利技术的具体实施例及所运用的技术原理,若依本专利技术的构想所作的改变本文档来自技高网...
一种大数据可视化分析方法

【技术保护点】
一种大数据可视化分析方法,其特征在于,包括如下步骤:(1)整合大规模数据源,并将大规模数据源存储到分布式数据库;(2)通过配置引擎界面配置参数,从大规模数据源中抽取用于分析的样例数据;(3)对样例数据进行去燥操作,消除无关数据,得到分析样本;(4)对分析样本进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存;(5)将数据模型以可视化图形方式进行输出。

【技术特征摘要】
1.一种大数据可视化分析方法,其特征在于,包括如下步骤:(1)整合大规模数据源,并将大规模数据源存储到分布式数据库;(2)通过配置引擎界面配置参数,从大规模数据源中抽取用于分析的样例数据;(3)对样例数据进行去燥操作,消除无关数据,得到分析样本;(4)对分析样本进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存;(5)将数据模型以可视化图形方式进行输出。2.根据权利要求1所述的一种大数据可视化分析方法,其特征在于:所述的大规模数据源包括EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源中的任意一种或组合。3.根据权利要求1所述的一种大数据可视化分析方法,其特征在于:所述的去燥操作通过调用UDF公式和lambda公式实现。4.根据权利要求3所述的一种大数据可视化分析方法,其特征在于:所述的去燥操作为增加、选择、更改类型、字符串处理中的任意一种操作或组合操作。5.根据权利要求3所述的一种大数据可视化分析方法,其特征在于:所述的UDF公式为:DF2=@udf DF1 by udf0.UDF0其中,DF2为运算后的返回...

【专利技术属性】
技术研发人员:郜军伟
申请(专利权)人:杭州合众数据技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1