【技术实现步骤摘要】
异构多数据源进行大数据分析及可视化开发的方法及装置
[0001]本专利技术涉及信息
技术介绍
[0002]大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。本方法针对的是大数据分析这项技术,在特定的场景下可支持大数据预处理、大数据开发。
[0003]目前的大数据分析主要有两种方式。一种是借助开源的计算框架编写大数据处理的程序代码并提交到大数据集群进行执行,将结果输出到目标存储,并利用数据库客户端工具、可视化系统进行展示或推送到目标系统;另一种是借助包括大数据仓库ElasticSearch在内的大数据产品提供的SQL引擎,采用编写SQL的方式来进行数据分析。当前比较流行的开源框架包括:SparkSQL,Presto。两种方式都同时支持异构数据源的联合分析,有效地降低了数据分析人员操作大数据的技术门槛。同时,突出的计算性能表现大大提高了数据分析的效率。阿里云开发的Dataworks集采集、存储、计算组件于一身,数据分析者和开发者可利用这些数据进行快速的开发和上线。
[0004]数据分析是一个不断试错、迭代的过程,同时面临新的数据环境、临时性的任务。而基于上述的两种大数据分析方式,对数据分析人员的要求既涉及业务理解能力,又涉及大数据技术。总结来讲,传统方式下的数据分析工作存在启动困难,技术门槛高,过程临时不可沉淀,多角色协同等问题。
[0005]在数据科学领域有IBM SPSS、KNIME、RapidMiner系统,提供了可视化算法 ...
【技术保护点】
【技术特征摘要】
1.异构多数据源进行大数据分析及可视化开发的装置,其特征在于由算子生成模块、算子配置模块和可视化编辑器组成;算子生成模块由输入算子生成器、记录处理算子生成器、字段处理算子生成器和输出算子生成器组成;算子配置模块由输入算子配置器、记录处理算子配置器、字段处理算子配置器和输出算子配置器组成;输入算子生成器由读数据库算子生成器、读SQL算子生成器、读ElasticSearch算子生成器和读HDFS算子生成器组成;输入算子配置器由读数据库算子配置器、读SQL算子配置器、读ElasticSearch算子配置器和读HDFS算子配置器组成;记录处理算子生成器由行过滤算子生成器、汇总算子生成器、字符串拼接算子生成器、字符串去重拼接算子生成器、最长开始子串算子生成器、关联算子生成器、排序算子生成器、记录去重算子生成器、合并算子生成器、随机取记录算子生成器和差集算子生成器组成;记录处理算子配置器由行过滤算子配置器、汇总算子配置器、字符串拼接算子配置器、字符串去重拼接算子配置器、最长开始子串算子配置器、关联算子配置器、排序算子配置器、记录去重算子配置器、合并算子配置器、随机取记录算子配置器和差集算子配置器组成;字段处理算子生成器由字符串处理算子生成器、日期处理算子生成器、数学函数算子生成器、数据类型转换算子生成器、选择字段算子生成器、字段重命名算子生成器和字段拼接算子生成器组成;字段处理算子配置器由字符串处理算子配置器、日期处理算子配置器、数学函数算子配置器、数据类型转换算子配置器、选择字段算子配置器、字段重命名算子配置器和字段拼接算子配置器组成;输出算子生成器由写数据库算子生成器、写FTP算子生成器、写HDFS文件算子生成器、写ElasticSearch算子生成器和写Kafka算子生成器组成;输出算子配置器由写数据库算子配置器、写FTP算子配置器、写HDFS文件算子配置器、写ElasticSearch算子配置器和写Kafka算子配置器组成;可视化编辑器对其中的算子进行如下约束:输入算子无前置算子;2. 输出算子无后置算子;3. 一个算子可引出到多个后置算子;4. 关联算子、合并算子可接受2个输入,其余算子只能接收1个输入;读数据库算子生成器负责在可视化编辑器生成读数据库算子,将读数据库的程序配置给读数据库算子,读数据库算子由读数据库算子配置器完成配置,读数据库算子配置器需要配置数据源,表名,读取的字段;读SQL算子生成器负责在可视化编辑器生成读SQL算子,将读SQL的程序配置给读SQL算子,读SQL算子由读SQL算子配置器完成配置,读SQL算子配置器需配置数据源,表名,读取的字段,SQL表达式;读ElasticSearch算子生成器负责在可视化编辑器生成读ElasticSearch算子,将读ElasticSearch的程序配置给读ElasticSearch算子,读ElasticSearch算子由读ElasticSearch算子配置器完成配置,读ElasticSearch算子配置器需配置数据源,快照的有效期;读HDFS算子生成器负责在可视化编辑器生成读HDFS算子,将读HDFS的程序配置给读HDFS算子,读HDFS算子由读HDFS算子配置器完成配置,读HDFS算子配置器需配置数据源;行过滤算子生成器负责在可视化编辑器生成行过滤算子,将行过滤的程序配置给行过
滤算子,行过滤算子由行过滤算子配置器完成配置,行过滤算子配置器需要配置数据过滤条件;汇总算子生成器负责在可视化编辑器生成汇总算子,将汇总的程序配置给汇总算子,汇总算子由汇总算子配置器完成配置,汇总算子配置器需要配置数据汇总条件,数据汇总条件包括计数条件、均值条件、求和条件和极值条件;字符串拼接算子生成器负责在可视化编辑器生成字符串拼接算子,将字符串拼接的程序配置给字符串拼接算子,字符串拼接算子由字符串拼接算子配置器完成配置,字符串拼接算子配置器需要配置字符串拼接公式,字符串拼接公式就是字符串拼接条件的数学化展示;字符串去重拼接算子生成器负责在可视化编辑器生成字符串去重拼接算子,将字符串去重拼接的程序配置给字符串去重拼接算子,字符串去重拼接算子由字符串去重拼接算子配置器完成配置,字符串去重拼接算子配置器与字符串拼接算子配置器配置方式一致;字符串去重拼接的程序会将数据分组内的字符串先做去重再拼接;最长开始子串算子生成器负责在可视化编辑器生成最长开始子串算子,将最长开始子串的程序配置给最长开始子串算子,最长开始子串算子由最长开始子串算子配置器完成配置,最长开始子串算子配置器需要定义子字符串规则;最长开始子串的程序取分组内的最长开始子串;关联算子生成器负责在可视化编辑器生成关联算子,将关联算法配置给关联算子,关联算子由关联算子配置器完成配置,关联算子配置器需要配置数据关联的方式,数据关联的方式包括:左关联、右关联、全关联和笛卡尔积,左关联指第二组数据与第一组数据的左侧数据执行关联算法,右关联指第二组数据与第一组数...
【专利技术属性】
技术研发人员:梁国光,祁继锋,王红涛,樊璟,李竞,隆冰,朱宝俊,熊骁,聂传阳,林飞,易永波,华仲峰,
申请(专利权)人:中国移动通信集团山西有限公司任子行网络技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。