一种埋点数据到ODS层的处理方法及装置制造方法及图纸

技术编号:33347256 阅读:21 留言:0更新日期:2022-05-08 09:45
本申请涉及一种埋点数据到ODS层的处理方法及装置,方法包括:将从业务获取的埋点数据根据数据来源和业务种类分类保存在不同的业务文件;将每个业务文件预处理为kv格式;按照预设规则根据kv格式的key值生成每个业务文件的业务路径,并将value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,与历史埋点数据聚合;根据第一目录结构将每个业务的所述业务路径指定给对应数据来源的外部分区表的对应分区。本申请简化ODS层数据表的管理、提高ODS层埋点数据处理效率以及可靠性。及可靠性。及可靠性。

【技术实现步骤摘要】
一种埋点数据到ODS层的处理方法及装置


[0001]本申请涉及ODS层源数据处理技术的领域,尤其是涉及一种埋点数据到ODS层的处理方法及装置。

技术介绍

[0002]在使用埋点数据时,不同业务之间的数据在逻辑上是独立使用的,同时每个业务还有上线(上架)和下线(下架)的区分,如果不同业务的埋点数据不加区分就保存,则存储的埋点数据使用起来极就会为困难。
[0003]因此,在ODS(Operational Data Store,可操作型数据存储)层存储从业务获取的埋点数据时,会为每个业务进行建表,由于业务线比较多,表的数量也比较多,而且业务线增加就需要增加表,久而久之ODS层源数据的数据表数量巨大,不易管理,导致复杂的管理问题出现。

技术实现思路

[0004]为了在业务埋点数据同步过程中减少ODS层数据表的数量,简化ODS层源数据的数据表的管理以及提高数据埋点数据的处理效率以及安全性,本申请提供了一种埋点数据到ODS层的处理方法及装置。
[0005]本申请提供的一种埋点数据到ODS层的处理方法采用如下的技术方案:第一方面,本申请提供一种埋点数据到ODS层的处理方法,采用如下的技术方案:一种埋点数据到ODS层的处理方法,包括:将从业务获取的埋点数据根据数据来源和业务种类分类保存在不同的业务文件;其中,所述数据来源包括来自前端和来自后端;将每个所述业务文件预处理为kv格式;其中,key值为所述业务文件对应的存储路径,value值为所述业务文件中的埋点数据;按照预设规则根据所述key值生成每个所述业务文件的业务路径,并将所述value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,与历史埋点数据聚合;根据所述第一目录结构将每个业务的所述业务路径指定给对应数据来源的外部分区表的对应分区;其中,所述外部分区表包括前端的外部分区表和后端的外部分区表,并以业务线为每张所述外部分区表的分区键。
[0006]可选的,所述将每个所述业务文件预处理为kv格式采用sparkStreaming将所述业务文件格式预处理为kv格式。
[0007]可选的,所述业务路径包括key值和生成日期。
[0008]可选的,所述将所述value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,包括:识别所述value值对应所述业务文件的数据来源;
识别value值对应业务的业务种类;如果数据来源为前端,在前端的所述第一目录下查找与所述业务对应的前端子目录,并将value值存储在所述前端子目录下;如果数据来源为后端,在后端的所述第一目录下查找与所述业务对应的后端子目录,将value值存储在所述后端子目录下。
[0009]可选的,所述方法通过重写SaveAsHadoopFile方法,将每个业务文件按照业务种类保存在对应业务的第一目录下。
[0010]可选的,在所述按照预设规则根据所述key值生成每个所述业务文件的业务路径,并将所述value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,与历史埋点数据聚合之后,还包括:重新加载每个所述第一目录下包括所有埋点数据的文件,并对获取的文件压缩存储在指定的第二目录下。
[0011]可选的,所述方法使用hive的MSCK REPAIR TABLE完成根据每个所述第一目录结构将每个业务的所述业务路径指定给每张所述外部分区表的对应分区。
[0012]可选的,所述业务文件包括不同应用的应用文件;所述将从业务获取的埋点数据根据数据来源和业务种类分类保存在不同的业务文件,包括:将从业务获取的埋点数据根据来源和业务种类分类保存在不同的业务文件;将所述业务文件中的埋点数据根据应用种类分类保存在对应的所述应用文件中。
[0013]可选的,所述将每个所述业务文件预处理为kv格式包括:将每个所述应用文件预处理为kv格式;其中,key值为所述应用文件对应的存储路径,value值为所述应用文件中的埋点数据;将每个所述业务文件预处理为kv格式。
[0014]第二方面,本申请提供一种埋点数据到ODS层的处理装置采用如下的技术方案:一种埋点数据到ODS层的处理装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述一种埋点数据到ODS层的处理方法。
[0015]综上所述,本申请包括以下至少一种有益技术效果:1.本申请数据来源建立了两张外部分区表,不会再有数据表的级别变化,简化ODS层数据表的管理;2.构建包括了所有业务的埋点数据的第一目录,再通过第一目录的结构完成自动生成外部分区表业务路径的指定,不需要手动指定,不仅有效提高ODS层埋点数据处理效率,而且与业务上线和业务下线解耦,埋点数据到ODS层的抽取不再受业务上线和业务下线的影响,提高埋点数据到ODS层处理的可靠性。
附图说明
[0016]图1是本申请实施例提供的一种埋点数据到ODS层的处理方法的流程图;图2是本申请实施例提供的一种埋点数据到ODS层的处理装置的结构框图。
具体实施方式
[0017]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1

2及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0018]本申请实施例公开一种埋点数据到ODS层的处理方法。参照图1,包括以下步骤:步骤S100、将从业务获取的埋点数据根据来源和业务种类分类保存在不同的业务文件;即从业务获取的埋点数据包括A业务的埋点数据、B业务的埋点数据和C业务的埋点数据,那么此次获取的埋点数据的业务种类为A业务、B业务和C业务,将A业务的埋点数据保存至A业务文件、B业务的埋点数据保存至B业务文件、C业务的埋点数据保存至C业务文件。
[0019]步骤S200、将每个业务文件预处理为kv格式;其中,key值为业务文件对应的存储路径,value值为业务文件中的埋点数据本身。在本实施例中,使用sparkStreaming将业务文件格式预处理为kv格式。
[0020]步骤S300、根据每个业务文件的key值按照预设规则生成每个业务文件的业务路径,并将value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,与历史埋点数据聚合,实现多目录保存文件;其中,业务路径至少包括key值,在一些实施例中,业务路径还包括该业务文件的生成日期;如果预设规则为将key值和业务文件的生成日期聚合,则该业务文件的业务路径为key值+生成日期或者生成日期+key值,如业务D前端的埋点数据存储在C盘的业务D文件夹中,则key值为C:\D文件夹,生成日期为2021

12

30,业务D的业务路径为C:\D文件夹2021

12

30或者2021

12

30C:\D文件夹。
[0021]将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种埋点数据到ODS层的处理方法,其特征在于:包括:将从业务获取的埋点数据根据数据来源和业务种类分类保存在不同的业务文件;其中,所述数据来源包括来自前端和来自后端;将每个所述业务文件预处理为kv格式;其中,key值为所述业务文件对应的存储路径,value值为所述业务文件中的埋点数据;按照预设规则根据所述key值生成每个所述业务文件的业务路径,并将所述value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,与历史埋点数据聚合;根据所述第一目录结构将每个业务的所述业务路径指定给对应数据来源的外部分区表的对应分区;其中,所述外部分区表包括前端的外部分区表和后端的外部分区表,并以业务线为每张所述外部分区表的分区键。2.根据权利要求1所述的方法,其特征在于,所述将每个所述业务文件预处理为kv格式采用sparkStreaming将所述业务文件格式预处理为kv格式。3.根据权利要求1所述的方法,其特征在于,所述业务路径包括key值和生成日期。4.根据权利要求1所述的方法,其特征在于,所述将所述value值按照对应业务文件的数据来源和业务种类保存在对应来源的第一目录下,包括:识别所述value值对应所述业务文件的数据来源;识别value值对应业务的业务种类;如果数据来源为前端,在前端的所述第一目录下查找与所述业务对应的前端子目录,并将value值存储在所述前端子目录下;如果数据来源为后端,在后端的所述第一目录下查找与所述业务对应的后端子目录,将value值存储在所述后端子目录下。5.根据权利要求1所述的方法,其特征在于,所述方法通过重写Sa...

【专利技术属性】
技术研发人员:郭鹏野张振勇
申请(专利权)人:北京发现角科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1