【技术实现步骤摘要】
数据平台、数据处理方法、装置、介质及设备
[0001]本申请涉及数据处理
,尤其是涉及到一种数据平台、数据处理方法、装置、介质及设备。
技术介绍
[0002]随着计算机技术的发展,数据是很多企业的核心资产。在企业涉及的业务系统越来越多、各业务系统数据量越来越庞大的情况下,如何提供一种实时性、完备性、一体化的数据平台,是需要解决的一个技术问题。
技术实现思路
[0003]有鉴于此,本申请提供了一种数据平台、数据处理方法、装置、介质及设备,主要目的在于提供一种实时性、完备性、一体化的数据平台。
[0004]依据本申请的一个方面,提供了一种数据平台,所述数据平台包括数仓系统、存储层、计算层、服务层和应用层,其中,所述数仓系统,用于对源数据进行分层和整合,得到离线数仓表和/或实时数仓表;所述存储层,用于接入数仓系统获得离线数仓表和/或实时数仓表,将所述离线数仓表和/或实时数仓表的数据进行数据持久化处理并存储;所述计算层,用于针对离线场景和实时场景,对所述存储层提供的数据采取不同的计算引擎进行数据处理,其 ...
【技术保护点】
【技术特征摘要】
1.一种数据平台,其特征在于,所述数据平台包括数仓系统、存储层、计算层、服务层和应用层,其中,所述数仓系统,用于对源数据进行分层和整合,得到离线数仓表和/或实时数仓表;所述存储层,用于接入数仓系统获得离线数仓表和/或实时数仓表,将所述离线数仓表和/或实时数仓表的数据进行数据持久化处理并存储;所述计算层,用于针对离线场景和实时场景,对所述存储层提供的数据采取不同的计算引擎进行数据处理,其中,对于离线场景,采用内存分布式计算引擎进行数据结构化处理;对于实时场景,采用实时数据计算引擎进行数据结构化处理;所述服务层,用于连接所述计算层与所述应用层;所述应用层,用于从所述服务层获取到处理后的数据,根据应用需求对处理后的数据进行读取、分析或展示。2.根据权利要求1所述的数据平台,其特征在于,所述内存分布式计算引擎包括计算节点、资源调度管理器、作业服务器,其中,其中,所述资源调度管理器进行对计算节点和作业服务器的资源进行调度,所述计算节点从存储层读取到离线数仓表,所述作业服务器配置一个或多个作业(Job),对离线数仓表的数据进行抽取、转换及加载,完成数据结构化处理。3.根据权利要求1所述的数据平台,其特征在于,所述实时数据计算引擎为列式数据库集群,其中,所述列式数据库集群,基于分片算法,基于负载均衡策略以列式存储方式将数据写入分片,其中,通过各分片之间建立连接,完成数据结构化处理。4.根据权利要求1
‑
3任一项所述的数据平台,其特征在于,所述数仓系统从关系型数据库、大数据系统、文件数据或API接口获取到源数据,根据业务需求对源数据进行基于主题的分层和整合,得到所述离线数仓表或实时数仓表。5.根据权利要求4所述的数据平台,其特征在于,所述数仓系统包括原始数据层、明细宽表层和应用汇总层;所述数仓系统对于离线场景,通过所述原始数据层,对源数据进行增量拉取和全量拉取,使拉取的数据保持和源数据一致;通过所述明细宽表层,针对不同业务线的不同主题的数据进行明细宽表建设;通过所述应用汇总层,用于对各主题的明细宽表进行汇总,生成各主题间的汇总表,作为所述离线数仓表;所述数仓系统对于实时场景,通过所述原始数据层,读取到流式数据;通过所述明细宽表层,对所述流式数据进行关联,然后将所述流式数据写入到不同主题的明细宽表中;通过所述应用汇总层,对所述明细宽表层的各个明细宽表中的数据进行汇总,得到汇总表,作为所述实时数仓表。6.根据权利要求1
‑
3任一项所述的数据平台,其特征在于,所述应用层包括一体化报表系统,所述一体化报表系统对离线场景的数据进行报表展示、对实时场景的数据进行实时展示,其中,所述统一报表系统支持可视化编辑以及自定义报表模板。7.一种基于数据平台的数据处理方法,其特征在于,包括:对源数据进行分层和整合,得到离线数仓表和/或实时数仓表;获得离线数仓表和/或实时数仓表,将所述离线数仓表和/或实时数仓表的数据进行数据持久化处理并存储;
针对离线场景和实时场景,对所述存储层提供的数据采取不同的计算引擎进行数据处理,其中,对于离线场景,采用内存分布式计算引擎进行数据结构化处理;对于实时场景,采用实时数据计算引擎进行数据结构化处理;根据应用需求对处理后的数据进行读取、分析或展示。8.根据权利要求7所述的方法,其特征在于,所述采用内存分布式计算引擎进行数据结构化处理,包括...
【专利技术属性】
技术研发人员:李小刚,
申请(专利权)人:车主邦北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。