异构多数据源进行大数据分析及可视化开发的方法及装置制造方法及图纸

技术编号:30898960 阅读:17 留言:0更新日期:2021-11-22 23:42
异构多数据源进行大数据分析及可视化开发的方法及装置涉及信息计数领域。本发明专利技术由算子生成模块、算子配置模块和可视化编辑器组成;算子生成模块由输入算子生成器、记录处理算子生成器、字段处理算子生成器和输出算子生成器组成;算子配置模块由输入算子配置器、记录处理算子配置器、字段处理算子配置器和输出算子配置器组成;将数据处理的最小单元定义为算子以可视化建模的形式,实现对异构的多数据源进行大数据分析。极大降低了大数据分析的技术门槛,提高了数据分析建模的效率,提升了大数据计算的效率。数据计算的效率。数据计算的效率。

【技术实现步骤摘要】
异构多数据源进行大数据分析及可视化开发的方法及装置


[0001]本专利技术涉及信息


技术介绍

[0002]大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。本方法针对的是大数据分析这项技术,在特定的场景下可支持大数据预处理、大数据开发。
[0003]目前的大数据分析主要有两种方式。一种是借助开源的计算框架编写大数据处理的程序代码并提交到大数据集群进行执行,将结果输出到目标存储,并利用数据库客户端工具、可视化系统进行展示或推送到目标系统;另一种是借助包括大数据仓库ElasticSearch在内的大数据产品提供的SQL引擎,采用编写SQL的方式来进行数据分析。当前比较流行的开源框架包括:SparkSQL,Presto。两种方式都同时支持异构数据源的联合分析,有效地降低了数据分析人员操作大数据的技术门槛。同时,突出的计算性能表现大大提高了数据分析的效率。阿里云开发的Dataworks集采集、存储、计算组件于一身,数据分析者和开发者可利用这些数据进行快速的开发和上线。
[0004]数据分析是一个不断试错、迭代的过程,同时面临新的数据环境、临时性的任务。而基于上述的两种大数据分析方式,对数据分析人员的要求既涉及业务理解能力,又涉及大数据技术。总结来讲,传统方式下的数据分析工作存在启动困难,技术门槛高,过程临时不可沉淀,多角色协同等问题。
[0005]在数据科学领域有IBM SPSS、KNIME、RapidMiner系统,提供了可视化算法建模、数据分析工具。采用组件拖拽的形式,算法分析人员和数据分析人员在零代码的情况下便可构建并运行算法模型。极大地降低了算法研发的技术门槛。这些工具专注于数据科学领域,对大数据技术的支持度不足。
[0006]由此,需要一种方法和工具,融合可视化建模技术、大数据分析技术,实现零代码情况下的大数据分析。同时解决大数据分析工作启动困难,技术门槛高,过程临时不可沉淀,多角色协同等问题。
[0007]公知技术说明流式大数据处理的三种开源的计算框架包括:Spark Streaming,Flink,Storm。
[0008]大数据仓库Hive、分布式文件系统HDFS、关系数据库MYSQL、关系数据库Oracle、关系数据库达梦、计算引擎Presto、搜索系统ElasticSearch,以上都是出现在本申请文件中大数据学科的专有名词。
[0009]SQL 是用于访问和处理数据库的标准的计算机语言。
[0010]大数据生态圈一般会按照下列类型进行分类:关系数据库;包括MYSQL,Oracle,PostgreSQL,GBase8s,达梦数据库等。特点是遵循SQL标准,提供JDBC驱动(JAVA语言);大数据仓库;包括Hive,CarbonData。特点是存储和计算引擎分离,目前流行的对
接计算引擎是Spark。都提供了ThriftServer的访问方式、同样可以采用SQL进行操作;MPP数据库;包括ClickHouse,GBase8a,GreemPlus。属于LDAP场景,支持有限的SQL标准;分布式文件系统;包括:HDFS,CEPH。特点是独立的访问接口,需要采用文件的方式进行读/写,相当于处理半结构化/非结构化的数据。在大数据分析场景下,可采用Spark进行操作;消息中间件;包括:Kafka,RabbitMQ,RokerMQ。特点是流式数据,存储和中转的是半结构化的数据。在大数据分析场景下,可采用Spark进行操作。但不提供类似SQL的接口;NoSQL;包括Hbase,Kudu,Redis,Cassandra等。特点是独立的访问接口,特殊的数据结构;搜索索引;包括ElasticSearch,Solr。特点是独立的访问接口,特殊的数据结构。ElasticSearch低版本支持DSL查询语言,高版本支持JDBC接口。
[0011]本专利技术要解决如何将这些差异化极大的数据源统一到同一个操作界面,包括数据的输入、变换、输出。
[0012]本申请文件中的名词定义算子:每个对数据的处理单元是一个最小化、不可再分的基本操作,定义为算子;每个算子在接口契约满足的条件下独立地实现一个数据操作;所有算子的组合可以满足覆盖所有数据分析场景的需求。
[0013]最长开始子串:找出一个字符串的最长子字符串,要求该子字符串符合定义的子字符串规则,称为最长子串;当最长子串为最接近于字符串开始位置时,该最长子串为最长开始子串。

技术实现思路

[0014]鉴于现有技术的不足,本专利技术提供的异构多数据源进行大数据分析及可视化开发的装置由算子生成模块、算子配置模块和可视化编辑器组成;算子生成模块由输入算子生成器、记录处理算子生成器、字段处理算子生成器和输出算子生成器组成;算子配置模块由输入算子配置器、记录处理算子配置器、字段处理算子配置器和输出算子配置器组成;输入算子生成器由读数据库算子生成器、读SQL算子生成器、读ElasticSearch算子生成器和读HDFS算子生成器组成;输入算子配置器由读数据库算子配置器、读SQL算子配置器、读ElasticSearch算子配置器和读HDFS算子配置器组成;记录处理算子生成器由行过滤算子生成器、汇总算子生成器、字符串拼接算子生成器、字符串去重拼接算子生成器、最长开始子串算子生成器、关联算子生成器、排序算子生成器、记录去重算子生成器、合并算子生成器、随机取记录算子生成器和差集算子生成器组成;记录处理算子配置器由行过滤算子配置器、汇总算子配置器、字符串拼接算子配置器、字符串去重拼接算子配置器、最长开始子串算子配置器、关联算子配置器、排序算子配置器、记录去重算子配置器、合并算子配置器、随机取记录算子配置器和差集算子配置器组成;字段处理算子生成器由字符串处理算子生成器、日期处理算子生成器、数学函数算子生成器、数据类型转换算子生成器、选择字段算子生成器、字段重命名算子生成器和字
段拼接算子生成器组成;字段处理算子配置器由字符串处理算子配置器、日期处理算子配置器、数学函数算子配置器、数据类型转换算子配置器、选择字段算子配置器、字段重命名算子配置器和字段拼接算子配置器组成;输出算子生成器由写数据库算子生成器、写FTP算子生成器、写HDFS文件算子生成器、写ElasticSearch算子生成器和写Kafka算子生成器组成;输出算子配置器由写数据库算子配置器、写FTP算子配置器、写HDFS文件算子配置器、写ElasticSearch算子配置器和写Kafka算子配置器组成;可视化编辑器对其中的算子进行如下约束:1. 输入算子无前置算子;2. 输出算子无后置算子;3. 一个算子可引出到多个后置算子;4. 关联算子、合并算子可接受2个输入,其余算子只能接收1个输入;读数据库算子生成器负责在可视化编辑器生成读数据库算子,将读数据库的程序配置给读数据库算子,读数据库算子由读数据库算子配置器完成配置,读数据库算子配置器需要配置数据源,表名,读取的字段;读SQL算子生成器负责在可视化编辑器生成读本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.异构多数据源进行大数据分析及可视化开发的装置,其特征在于由算子生成模块、算子配置模块和可视化编辑器组成;算子生成模块由输入算子生成器、记录处理算子生成器、字段处理算子生成器和输出算子生成器组成;算子配置模块由输入算子配置器、记录处理算子配置器、字段处理算子配置器和输出算子配置器组成;输入算子生成器由读数据库算子生成器、读SQL算子生成器、读ElasticSearch算子生成器和读HDFS算子生成器组成;输入算子配置器由读数据库算子配置器、读SQL算子配置器、读ElasticSearch算子配置器和读HDFS算子配置器组成;记录处理算子生成器由行过滤算子生成器、汇总算子生成器、字符串拼接算子生成器、字符串去重拼接算子生成器、最长开始子串算子生成器、关联算子生成器、排序算子生成器、记录去重算子生成器、合并算子生成器、随机取记录算子生成器和差集算子生成器组成;记录处理算子配置器由行过滤算子配置器、汇总算子配置器、字符串拼接算子配置器、字符串去重拼接算子配置器、最长开始子串算子配置器、关联算子配置器、排序算子配置器、记录去重算子配置器、合并算子配置器、随机取记录算子配置器和差集算子配置器组成;字段处理算子生成器由字符串处理算子生成器、日期处理算子生成器、数学函数算子生成器、数据类型转换算子生成器、选择字段算子生成器、字段重命名算子生成器和字段拼接算子生成器组成;字段处理算子配置器由字符串处理算子配置器、日期处理算子配置器、数学函数算子配置器、数据类型转换算子配置器、选择字段算子配置器、字段重命名算子配置器和字段拼接算子配置器组成;输出算子生成器由写数据库算子生成器、写FTP算子生成器、写HDFS文件算子生成器、写ElasticSearch算子生成器和写Kafka算子生成器组成;输出算子配置器由写数据库算子配置器、写FTP算子配置器、写HDFS文件算子配置器、写ElasticSearch算子配置器和写Kafka算子配置器组成;可视化编辑器对其中的算子进行如下约束:输入算子无前置算子;2. 输出算子无后置算子;3. 一个算子可引出到多个后置算子;4. 关联算子、合并算子可接受2个输入,其余算子只能接收1个输入;读数据库算子生成器负责在可视化编辑器生成读数据库算子,将读数据库的程序配置给读数据库算子,读数据库算子由读数据库算子配置器完成配置,读数据库算子配置器需要配置数据源,表名,读取的字段;读SQL算子生成器负责在可视化编辑器生成读SQL算子,将读SQL的程序配置给读SQL算子,读SQL算子由读SQL算子配置器完成配置,读SQL算子配置器需配置数据源,表名,读取的字段,SQL表达式;读ElasticSearch算子生成器负责在可视化编辑器生成读ElasticSearch算子,将读ElasticSearch的程序配置给读ElasticSearch算子,读ElasticSearch算子由读ElasticSearch算子配置器完成配置,读ElasticSearch算子配置器需配置数据源,快照的有效期;读HDFS算子生成器负责在可视化编辑器生成读HDFS算子,将读HDFS的程序配置给读HDFS算子,读HDFS算子由读HDFS算子配置器完成配置,读HDFS算子配置器需配置数据源;行过滤算子生成器负责在可视化编辑器生成行过滤算子,将行过滤的程序配置给行过
滤算子,行过滤算子由行过滤算子配置器完成配置,行过滤算子配置器需要配置数据过滤条件;汇总算子生成器负责在可视化编辑器生成汇总算子,将汇总的程序配置给汇总算子,汇总算子由汇总算子配置器完成配置,汇总算子配置器需要配置数据汇总条件,数据汇总条件包括计数条件、均值条件、求和条件和极值条件;字符串拼接算子生成器负责在可视化编辑器生成字符串拼接算子,将字符串拼接的程序配置给字符串拼接算子,字符串拼接算子由字符串拼接算子配置器完成配置,字符串拼接算子配置器需要配置字符串拼接公式,字符串拼接公式就是字符串拼接条件的数学化展示;字符串去重拼接算子生成器负责在可视化编辑器生成字符串去重拼接算子,将字符串去重拼接的程序配置给字符串去重拼接算子,字符串去重拼接算子由字符串去重拼接算子配置器完成配置,字符串去重拼接算子配置器与字符串拼接算子配置器配置方式一致;字符串去重拼接的程序会将数据分组内的字符串先做去重再拼接;最长开始子串算子生成器负责在可视化编辑器生成最长开始子串算子,将最长开始子串的程序配置给最长开始子串算子,最长开始子串算子由最长开始子串算子配置器完成配置,最长开始子串算子配置器需要定义子字符串规则;最长开始子串的程序取分组内的最长开始子串;关联算子生成器负责在可视化编辑器生成关联算子,将关联算法配置给关联算子,关联算子由关联算子配置器完成配置,关联算子配置器需要配置数据关联的方式,数据关联的方式包括:左关联、右关联、全关联和笛卡尔积,左关联指第二组数据与第一组数据的左侧数据执行关联算法,右关联指第二组数据与第一组数...

【专利技术属性】
技术研发人员:梁国光祁继锋王红涛樊璟李竞隆冰朱宝俊熊骁聂传阳林飞易永波华仲峰
申请(专利权)人:中国移动通信集团山西有限公司任子行网络技术股份有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1