一种基于分布式计算的可视化流式计算平台制造技术

技术编号:35934737 阅读:13 留言:0更新日期:2022-12-14 10:21
本发明专利技术涉及数据处理技术领域,公开了一种基于分布式计算的可视化流式计算平台,包括抽取模块、转换模块、加载模块和特殊处理模块;所述抽取模块用于采用设定的提取方式从不同的数据源抽取数据,并对抽取的数据进行解析和分发;所述转换模块用于根据所述数据处理规则对抽取的数据进行加工和格式转换;所述加载模块用于将加工和格式转换完成的数据输出到目标数据仓;所述特殊处理模块用于对用户的特殊业务需求进行对应的处理后输出到所述加载模块。本发明专利技术提供的基于分布式计算的可视化流式计算平台,对用户的数据源进行抽取、转换、加载,并依据用户的需求进行特殊处理,将大量的流式数据进行整合,为企业的决策提供分析依据。为企业的决策提供分析依据。为企业的决策提供分析依据。

【技术实现步骤摘要】
一种基于分布式计算的可视化流式计算平台


[0001]本专利技术涉及数据处理
,特别涉及一种基于分布式计算的可视化流式计算平台。

技术介绍

[0002]近年来,持续推动大数据技术产业创新,发展以数据为关键要素的数字经济,数字经济政策逐步深化。
[0003]移动通讯行业经历了2G、3G、4G移动网络时代,正在演进的是物联网、5G,每次网络的更新都会引起数据类型、数据量的巨大变化,相应的数据处理技术也在不断演进。物联网、 5G时代,将会有更多的设备连入网络,更多的应用数据需要快速进行分析处理,数据量将会更大,数据价值会更丰富,但对数据处理技术也带来了更多的挑战,主要包括如下几个方面:从数据产生、存储、计算分析出结果,整个流程时延往往在几个小时,但是要求分钟级、甚至秒级的应用需求越来越多;流量飞速增长,存储数据飞速增长,数据中心从TB到PB再到 EB,传统的流处理框架撑不住如此大的流量增长;基于流计算平台的需求需要快速上线,流处理平台需要具备最少的代码开发工作,通过配置的方式适配业务需求的能力。
[0004]为了提高企业的用户体验,就要增加企业服务更多用户的能力。每一个客户都有自己的个性化需求,企业是不能用同一套系统来服务所有的客户。客户量不大的情况还好控制,客户一旦增多,企业就会陷入疲于应付的境地。要么不停地满足老客户的需求,客户需求总是源源不断,企业的成本就会不断地增加,减弱了服务市场的能力。要么就恰恰相反,对于客户的需求一再拖延,甚至拒绝,降低了客户的满意度,丢了客户,只有不断地拓展新市场才能维持公司的正常运转,不能满足用户个性化的需求,增加企业投入成本,无法保证产品的可靠性和可持续性。

技术实现思路

[0005]本专利技术提供了一种基于分布式计算的可视化流式计算平台,对用户的数据源进行抽取、转换、加载,并依据用户的需求进行特殊处理,将大量的流式数据进行整合,为企业的决策提供分析依据。
[0006]本专利技术提供了一种基于分布式计算的可视化流式计算平台,包括抽取模块、转换模块、加载模块和特殊处理模块;
[0007]所述抽取模块用于采用设定的提取方式从不同的数据源抽取数据,并对抽取的数据进行解析和分发;其中,所述数据源包括数据库、kafka、通过ftp上传的文件、已通过流式计算平台处理过一次或多次的数据;
[0008]所述转换模块用于接收所述抽取模块分发的解析后的数据、用户确定的数据处理规则,并根据所述数据处理规则对抽取的数据进行加工和格式转换;
[0009]所述加载模块用于将加工和格式转换完成的数据输出到目标数据仓,其中,所述目标数据仓包括数据表或文件;
[0010]所述特殊处理模块用于对用户的特殊业务需求进行对应的处理后输出到所述加载模块;其中,所述特殊业务需求包括加密、解密和脱敏。
[0011]进一步地,所述抽取模块对抽取的数据进行解析和分发,解析规则包括CSV、JSON、XML、压缩数据,所述CSV为用行列分隔符分隔的数据,所述JSON为用js对象表示一条记录,属性名表示字段名,属性值表示字段值,所述XML用xml格式保存的记录集,所述压缩数据为将以上类型数据压缩后的数据,其压缩格式包括:gz,tar.gz,zip。
[0012]进一步地,将解析后的数据按元数据定义的表结构表示,所述元数据定义规则和流式计算的表结构,并按照所述规则提取数据并分发数据到所述转换模块;其中,所述规则包括指定数据的解析规则,类型转换规则,路由规则。
[0013]进一步地,所述按照所述规则提取数据并分发数据到所述转换模块中,将解析后的数据按记录流分发到所述转换模块,分发按轮询的方式发到多个转换程序,或设置路由字段确保相同子分类的数据发到同一个转换程序。
[0014]进一步地,所述加载模块中,加载到目标数据仓的数据格式包括CSV、JSON、PARQUET、 ORC,数据仓类型包括HDFS、HBASE、HIVE、KAFKA、FTP(S)、SFTP、WEB、本地磁盘、数据库、视图。
[0015]进一步地,还包括ETL注册服务,所述ETL注册服务用于实现控制流,所述转换模块和加载模块将处理能力注册到注册服务,注册服务将已注册的处理能力通知所述抽取模块来协调数据流的处理。
[0016]进一步地,还包括ETLWorker,所述ETLWorker用于实现数据流,以便所述抽取模块对数据抽取并按记录流发送给对应的转换模块,所述转换模块对数据进行转换后加载到目标数据仓库。
[0017]进一步地,还包括Yarn,所述Yarn为流式计算平台外的部署方式,其利用Yarn的计算资源实现流式计算。
[0018]本专利技术的有益效果为:
[0019]采用js描述数据源,不仅方便灵活表示数据源的结构,同时可定义数据源的解析规则和字段类型的转换规则,字段不仅可以是原始数据,还可以是变量,文件名的一部分。数据源格式支持csv,xml,json和多种压缩格式,数据源可以是文件,kafka和各种支持jdbc的数据库。加载阶段的数据可以作为输入数据源对数据作二次或多次转换。可以将一个或多个字段作为路由规则对数据进行分组转换,按时间条件在提取阶段对数据进行清洗可减少数据传输量。转换和加载阶段用sql语法表示,自研的sql解析器支持丰富的函数,也可以在线开发新的函数而无须发布新的版本;实现对用户的数据源进行抽取、转换、加载,并依据用户的需求进行特殊处理,将大量的流式数据进行整合,为企业的决策提供分析依据。
附图说明
[0020]图1为本专利技术基于分布式计算的可视化流式计算平台架构示意图。
[0021]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]需要说明,本专利技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0024]另外,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。
[0025]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0026]如图1所示,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式计算的可视化流式计算平台,其特征在于,包括抽取模块、转换模块、加载模块和特殊处理模块;所述抽取模块用于采用设定的提取方式从不同的数据源抽取数据,并对抽取的数据进行解析和分发;其中,所述数据源包括数据库、kafka、通过ftp上传的文件、已通过流式计算平台处理过一次或多次的数据;所述转换模块用于接收所述抽取模块分发的解析后的数据、用户确定的数据处理规则,并根据所述数据处理规则对抽取的数据进行加工和格式转换;所述加载模块用于将加工和格式转换完成的数据输出到目标数据仓,其中,所述目标数据仓包括数据表或文件;所述特殊处理模块用于对用户的特殊业务需求进行对应的处理后输出到所述加载模块;其中,所述特殊业务需求包括加密、解密和脱敏。2.根据权利要求1所述的基于分布式计算的可视化流式计算平台,其特征在于,所述抽取模块对抽取的数据进行解析和分发,解析规则包括CSV、JSON、XML、压缩数据,所述CSV为用行列分隔符分隔的数据,所述JSON为用js对象表示一条记录,属性名表示字段名,属性值表示字段值,所述XML用xml格式保存的记录集,所述压缩数据为将以上类型数据压缩后的数据,其压缩格式包括:gz,tar.gz,zip。3.根据权利要求2所述的基于分布式计算的可视化流式计算平台,其特征在于,将解析后的数据按元数据定义的表结构表示,所述元数据定义规则和流式计算的表结构,并按照所述规则提取数据并分发数据到所述转换模块;其中,所...

【专利技术属性】
技术研发人员:王敏程涛木吴亮黄国林何魁毛尚全钱玲
申请(专利权)人:博瑞得科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1