一种湖仓一体架构制造技术

技术编号:38566849 阅读:11 留言:0更新日期:2023-08-22 21:04
本发明专利技术公开了一种数据仓库领域的湖仓一体架构,包括数据采集层、数据仓库及业务应用层;其中:数据采集层,用于采集业务数据及日志数据,并将采集到的数据传输给数据仓库;数据仓库基于数据湖实现,用于对数据采集层传输的数据进行处理分析,并将处理分析所得的数据传输给业务应用层;业务应用层,用于将数据仓库传输的数据提供给外部的业务系统,供业务系统实现对相应数据的应用。本发明专利技术的数据仓库对数据采集层采集的数据进行分析处理后,传输给业务应用层实现相应的数据应用,且数据仓库是基于数据湖实现的;可见,本发明专利技术利用数据湖实现对数据仓库的补充,从而使得数据仓库能够支持分钟级别的数据分析处理,有效提高数据分析处理的时效性。理的时效性。理的时效性。

【技术实现步骤摘要】
一种湖仓一体架构


[0001]本专利技术涉及数据仓库
,更具体地说,涉及一种湖仓一体架构。

技术介绍

[0002]数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。但是,数据仓库通常是T+1进行更新,时效性比较低。

技术实现思路

[0003]本专利技术的目的是提供一种湖仓一体架构,能够解决现有的数据仓库时效性比较低的问题。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种湖仓一体架构,包括数据采集层、数据仓库及业务应用层;其中:
[0006]所述数据采集层,用于:采集业务数据及日志数据,并将采集到的数据传输给所述数据仓库;
[0007]所述数据仓库基于数据湖实现,用于:对所述数据采集层传输的数据进行处理分析,并将处理分析所得的数据传输给所述业务应用层;
[0008]所述业务应用层,用于:将所述数据仓库传输的数据提供给外部的业务系统,供所述业务系统实现对相应数据的应用。
[0009]优选的,所述数据采集层包括日志采集模块及业务采集模块,其中:
[0010]所述日志采集模块用于:将应用软件日志的埋点数据作为日志数据上报给消息队列,并将所述消息队列中的日志数据写入到所述数据仓库中;
[0011]所述业务采集模块用于:将指定数据库中的业务数据同步到所述数据仓库中。
[0012]优选的,所述日志采集模块具体用于:将日志数据上报给Kafka消息队列,并通过Flink将所述Kafka消息队列中的日志数据写入到所述数据仓库中。
[0013]优选的,所述业务采集模块具体用于:使用Flink CDC同步binlog技术,将指定数据库中的业务数据同步到所述数据仓库中。
[0014]优选的,所述数据仓库包括基于数据湖实现的原始数据层、明细数据层、公共维度层、汇总数据层及数据应用层;其中:
[0015]所述原始数据层,用于:将所述数据采集层传输的数据传输给所述明细数据层,并将其中的相应业务数据传输给所述公共维度层;
[0016]所述公共维度层,用于:基于所述原始数据层传输的业务数据对本地的维表数据进行更新;
[0017]所述明细数据层,用于:对所述原始数据层传输的数据进行预设计算,并将计算所得数据写入所述汇总数据层;
[0018]所述汇总数据层,用于:将所述明细数据层写入的数据及所述公共维度层的维表数据进行关联,并将关联所得数据写入所述数据应用层;
[0019]所述数据应用层,用于:将所述汇总数据层写入的数据同步到所述业务应用层。
[0020]优选的,所述原始数据层还用于:在传输数据前,对所述数据采集层传输的数据进行预设的ETL处理。
[0021]优选的,所述原始数据层具体用于:对于所述数据采集层传输的数据,将字段为空的数据、异常值的数据清洗过滤掉,将IP字段加工成地址信息,解析出相应JSON字段的值。
[0022]优选的,所述明细数据层具体用于:对所述原始数据层传输的数据进行聚合计算,并将计算所得数据写入所述汇总数据层。
[0023]优选的,所述数据仓库基于的数据湖的平台包括Apache Hudi及Apache Hadoop;其中,Apache Hadoop用于提供数据存储计算功能,所述Apache Hudi用于在所述Apache Hadoop上提供包括更新数据、删除数据及消费变化数据的数据管理能力。
[0024]优选的,所述业务应用层包括报表系统、实时大屏及用户画像系统,分别用于基于所述数据仓库传输的数据更新自身报表数据、进行实时展示及进行用户画像。
[0025]本专利技术提供的一种湖仓一体架构,包括数据采集层、数据仓库及业务应用层;其中:所述数据采集层,用于采集业务数据及日志数据,并将采集到的数据传输给所述数据仓库;所述数据仓库基于数据湖实现,用于对所述数据采集层传输的数据进行处理分析,并将处理分析所得的数据传输给所述业务应用层;所述业务应用层,用于将所述数据仓库传输的数据提供给外部的业务系统,供所述业务系统实现对相应数据的应用。本专利技术的数据仓库对数据采集层采集的数据进行分析处理后,传输给业务应用层实现相应的数据应用,且数据仓库是基于数据湖实现的;可见,本专利技术利用数据湖实现对数据仓库的补充,从而使得数据仓库能够支持分钟级别的数据分析处理,有效提高数据分析处理的时效性。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0027]图1为本专利技术实施例提供的一种湖仓一体架构的第一种结构示意图;
[0028]图2为本专利技术实施例提供的一种湖仓一体架构的第二种结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]请参阅图1,其示出了本专利技术实施例提供的一种湖仓一体架构的结构示意图;本专利技术实施例提供的湖仓一体架构可以包括数据采集层11、数据仓库12及业务应用层13;其中:
[0031]所述数据采集层11,用于:采集业务数据及日志数据,并将采集到的数据传输给所
述数据仓库12;
[0032]所述数据仓库12基于数据湖实现,用于:对所述数据采集层11传输的数据进行处理分析,并将处理分析所得的数据传输给所述业务应用层13;
[0033]所述业务应用层13,用于:将所述数据仓库12传输的数据提供给外部的业务系统,供所述业务系统实现对相应数据的应用。
[0034]本专利技术实施例提供的湖仓一体架构可以应用于任意需要实现数据分析处理的业务场景,如商品订购场景、人员信息管理场景等,以下均以应用于商品订购场景、具体为用户使用APP线上购买商品的场景进行具体说明。
[0035]本专利技术实施例提供的湖仓一体架构的工作过程包括:数据采集层11采集业务数据及日志数据后,将采集到的业务数据及日志数据传输给数据仓库12,数据仓库12基于数据湖、对数据采集层11传输的业务数据及日志数据进行处理分析,并将处理分析所得数据传输给业务应用层13,业务应用层13将数据仓库12传输的数据提供给外部的业务系统,供其进行数据应用。
[0036]数据采集层11用于采集数据库的业务数据及APP的日志数据。其中,数据库的业务数据主要包括用户注册本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种湖仓一体架构,其特征在于,包括数据采集层、数据仓库及业务应用层;其中:所述数据采集层,用于:采集业务数据及日志数据,并将采集到的数据传输给所述数据仓库;所述数据仓库基于数据湖实现,用于:对所述数据采集层传输的数据进行处理分析,并将处理分析所得的数据传输给所述业务应用层;所述业务应用层,用于:将所述数据仓库传输的数据提供给外部的业务系统,供所述业务系统实现对相应数据的应用。2.根据权利要求1所述的架构,其特征在于,所述数据采集层包括日志采集模块及业务采集模块,其中:所述日志采集模块用于:将应用软件日志的埋点数据作为日志数据上报给消息队列,并将所述消息队列中的日志数据写入到所述数据仓库中;所述业务采集模块用于:将指定数据库中的业务数据同步到所述数据仓库中。3.根据权利要求2所述的架构,其特征在于,所述日志采集模块具体用于:将日志数据上报给Kafka消息队列,并通过Flink将所述Kafka消息队列中的日志数据写入到所述数据仓库中。4.根据权利要求3所述的架构,其特征在于,所述业务采集模块具体用于:使用Flink CDC同步binlog技术,将指定数据库中的业务数据同步到所述数据仓库中。5.根据权利要求4所述的架构,其特征在于,所述数据仓库包括基于数据湖实现的原始数据层、明细数据层、公共维度层、汇总数据层及数据应用层;其中:所述原始数据层,用于:将所述数据采集层传输的数据传输给所述明细数据层,并将其中的相应业务数据传输给所述公共维度层;所述公共维度层,用于:基于所述原始数据层...

【专利技术属性】
技术研发人员:陈帅
申请(专利权)人:上海二三四五网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1