用于联机分析处理引擎的数据处理方法、装置、设备制造方法及图纸

技术编号:30102292 阅读:19 留言:0更新日期:2021-09-18 09:07
本公开公开了一种用于联机分析处理引擎的数据处理方法,涉及深度学习、云计算、大数据等领域,尤其涉及智能搜索等领域。具体实现方案为:利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表;以及将数据报表存入与联机分析处理引擎关联的数据库,以便通过联机分析处理引擎查询数据报表。过联机分析处理引擎查询数据报表。过联机分析处理引擎查询数据报表。

【技术实现步骤摘要】
用于联机分析处理引擎的数据处理方法、装置、设备


[0001]本公开涉及深度学习、云计算、大数据等领域,尤其涉及智能搜索等领域。具体涉及一种用于联机分析处理引擎的数据处理方法、装置、设备和存储介质。

技术介绍

[0002]互联网公司的业务数据通常涉及日志、后端数据库等多源数据。数据来源广、指标扩展性不佳、埋点不规范、重复开发、查询速度慢、回溯难度大、需求导向等问题日益成为互联网公司都会存在的离线数据建设的痛点。

技术实现思路

[0003]本公开提供了一种用于联机分析处理引擎的数据处理方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种用于联机分析处理引擎的数据处理方法,包括:利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表;以及将所述数据报表存入与所述联机分析处理引擎关联的数据库,以便通过所述联机分析处理引擎查询所述数据报表。
[0005]根据本公开的另一方面,提供了一种用于联机分析处理引擎的数据处理装置,包括:数据建模模块,用于利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表;以及报表存储模块,用于将所述数据报表存入与所述联机分析处理引擎关联的数据库,以便通过所述联机分析处理引擎查询所述数据报表。
[0006]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所述的方法。
[0007]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例所述的方法。
[0008]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例所述的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1示例性示出了适于本公开实施例的系统架构;
[0012]图2示例性示出了根据本公开实施例的用于联机分析处理引擎的数据处理方法的流程图;
[0013]图3示例性示出了根据本公开实施例的用于联机分析处理引擎的报表查询的示意图;
[0014]图4示例性示出了根据本公开实施例的维度建模的示意图;
[0015]图5示例性示出了根据本公开实施例的数仓分层的示意图;
[0016]图6示例性示出了根据本公开实施例的用于联机分析处理引擎的数据处理装置的框图;以及
[0017]图7示例性示出了用来实现本公开实施例的用于联机分析处理引擎的数据处理方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]应该理解,目前各大互联网公司的离线数据建设一般采用以下两种方式:
[0020]方式一,基于Hadoop的MapReduce计算引擎或Spark计算引擎的离线ETL(Extract

Transform

Load,用来描述数据从来源端经过抽取、转换、加载至目的端的过程)。这是当前的主流离线数据处理方案,可以进行维度建模、数仓分层、复杂逻辑处理、多种格式转化、PB级大数据量ETL。
[0021]应该理解,Hadoop是由Apacche基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。
[0022]还应该理解,MapReduce计算引擎是基于MapReduce算法实现的分布式计算引擎。
[0023]还应该理解,Spark计算引擎是专为大规模数据处理而设计的快速通用的计算引擎。
[0024]方式二,基于OLAP(Online Analytical Processing,简称联机分析处理)引擎的离线数据处理方案,比如clickhouse、kylin等。这是当前比较热门的离线数据处理方案,可以进行多维数据查询、大数据量预计算、即席查询等。
[0025]应该理解,clickhouse是一种用于OLAP的列式数据库管理系统。Kylin是一个开源的分布式分析引擎。
[0026]还应该理解,对于方式一而言,基于MapReduce或Spark计算引擎的处理方案,其最大缺陷在于ETL处理时间过长,hive或Spark SQL(Structured Query Language,结构化查询语句)的查询都是分钟级甚至小时级的,无法做到即席查询。此外,上述方式一也无法实现多维数据查询,且其cube查询能力和大数据量预计算能力缺失。对于方式二而言,基于OLAP引擎的处理方案,无法适应数仓分层、维度建模、复杂逻辑处理、多种格式转化等复杂应用场景。
[0027]需要说明的是,hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
[0028]对此,本公开实施例提供了一种改进型的用于OLAP引擎的数据处理方案,可以兼顾离线计算引擎和OLAP引擎的优点。即,可以进行维度建模、数仓分层、复杂逻辑处理、多种
格式转化、PB级大数据量ETL,也可以进行多维数据查询、大数据量预计算、即席查询。
[0029]以下将结合附图和具体实施例详细阐述本公开。
[0030]适于本公开实施例的用于联机分析处理引擎的数据处理方法和装置的系统架构介绍如下。
[0031]图1示例性示出了适于本公开实施例的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他环境或场景。
[0032]如图1所示,系统架构100可以包括:联机分析处理引擎101、离线计算引擎102、报表端103和数据仓库104。
[0033]在本公开实施例中,联机分析处理引擎101与数据仓库104关联,联机分析处理引擎101响应于报表查询请求,可以从数据仓库104中获取用户请求查询的数据报表并反馈给用户。
[0034]数据仓库104自下往上依次可以包括:操作数据层(Operational Data Store,简称ODS),明细数据层(Data Warehouse Detail,简称本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于联机分析处理引擎的数据处理方法,包括:利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表;以及将所述数据报表存入与所述联机分析处理引擎关联的数据库,以便通过所述联机分析处理引擎查询所述数据报表。2.根据权利要求1所述的方法,其中,所述利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表,包括:在所述联机分析处理引擎内嵌入离线计算引擎;以及利用所述联机分析处理引擎内嵌入的离线计算引擎,对所述操作数据进行维度建模,得到所述对应的数据报表。3.根据权利要求2所述的方法,其中,利用所述联机分析处理引擎内嵌入的离线计算引擎,对所述操作数据进行维度建模,得到所述对应的数据报表,包括:利用所述联机分析处理引擎内嵌入的离线计算引擎,对所述操作数据进行维度建模,得到对应的事实表和维度表;以及将所述维度表与所述事实表关联,得到所述对应的数据报表。4.根据权利要求1所述的方法,其中,将所述数据报表存入与所述联机分析处理引擎关联的数据库,包括:将所述数据报表存入与所述联机分析处理引擎关联的数据库的应用数据层。5.根据权利要求1所述的方法,还包括:响应于报表查询请求命中聚合查询预处理任务的列,利用所述联机分析处理引擎进行数据报表查询。6.根据权利要求5所述的方法,还包括:响应于报表查询请求未命中所述聚合查询预处理任务的列,利用预先设定的离线计算引擎进行数据报表查询。7.一种用于联机分析处理引擎的数据处理装置,包括:数据建模模块,用于利用联机分析处理引擎对操作数据进行维度建模,得到对应的数据报表;以及报表存储模块,用于将所述数据报表存入与所述联机分析处理引擎关联的数据库,以便通过所述联机分析处理引擎查询所述数据报表。8.根据权利要求7所述的装置,其中,所述数据建模模块包括:引擎...

【专利技术属性】
技术研发人员:郑晓月陈钢
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1