埋点数据处理方法及系统技术方案

技术编号:36753888 阅读:7 留言:0更新日期:2023-03-04 10:43
本申请公开了一种埋点数据处理方法,该方法包括:接收客户端上报的埋点数据,所述埋点数据根据预设规则进行分流上报;针对每个数据流分别进行传输和清洗后,写入数据湖中与所述数据流对应的数据表;在所述数据湖中对每个所述数据表的数据按预设主键进行排序和索引,以供下游任务读取。本申请还公开了一种埋点数据处理系统、电子装置和计算机可读存储介质。由此,能够提升埋点数据的隔离性,并减少读取数据时的IO开销。据时的IO开销。据时的IO开销。

【技术实现步骤摘要】
埋点数据处理方法及系统


[0001]本申请涉及数据处理
,尤其涉及一种埋点数据处理方法、系统、电子装置及计算机可读存储介质。

技术介绍

[0002]互联网公司经常会需要进行用户行为事件定义,经过埋点数据收集、上报入仓后进行分析使用,数据驱动、辅助指导业务发展。一般情况下,用户行为事件埋点上报都颇具规模,行为事件多,并且数据流量非常大。另外,公司各个业务方都在上报和使用埋点数据,存在大量的部门、业务线交叉使用需求,利用其他业务线上报的数据进行样本收集和训练。

技术实现思路

[0003]本申请的主要目的在于提出一种埋点数据处理方法、系统、电子装置及计算机可读存储介质,旨在解决上述场景下的埋点数据处理问题。
[0004]为实现上述目的,本申请实施例提供了一种埋点数据处理方法,所述方法包括:
[0005]接收客户端上报的埋点数据,所述埋点数据根据预设规则进行分流上报;
[0006]针对每个数据流分别进行传输和清洗后,写入数据湖中与所述数据流对应的数据表;
[0007]在所述数据湖中对每个所述数据表的数据按预设主键进行排序和索引,以供下游任务读取。
[0008]可选地,所述方法还包括:
[0009]响应于下游任务的数据读取请求,以行为事件级别对用户进行权限校验。
[0010]可选地,所述根据预设规则进行分流上报包括:
[0011]按照每个业务所需要的埋点数据对应的行为事件标识进行分流上报,将所述埋点数据以业务粒度进行隔离。
[0012]可选地,所述写入数据湖中与所述数据流对应的数据表包括:
[0013]在所述数据湖中按照不同业务划分多个数据表,将清洗后的每个数据流分别写入对应业务的数据表中。
[0014]可选地,所述对每个所述数据表的数据按预设主键进行排序和索引包括:
[0015]将每个数据表中的埋点数据按照行为事件标识进行排序;
[0016]将每个行为事件标识对应的数据块在所述数据表中的位置索引记录在表头中。
[0017]可选地,所述响应于下游任务的数据读取请求,以行为事件级别对用户进行权限校验包括:
[0018]接收下游任务通过Hive的视图发出的对所述数据湖的数据读取请求,所述视图中记录了所述下游任务的用户具有读取权限的第一行为事件标识;
[0019]获取所述数据读取请求中的第二行为事件标识,在所述第二行为事件标识未超过所述第一行为事件标识的范围时,校验通过。
[0020]可选地,所述方法还包括:
[0021]在校验通过后,根据所述数据读取请求中的业务标识从所述数据湖中找到对应的数据表;
[0022]根据所述数据读取请求中的行为事件标识和所述索引从所述数据表中直接读取对应数据块的埋点数据。
[0023]此外,为实现上述目的,本申请实施例还提供一种埋点数据处理系统,所述系统包括:
[0024]接收模块,用于接收客户端上报的埋点数据,所述埋点数据根据预设规则进行分流上报;
[0025]写入模块,用于针对每个数据流分别进行传输和清洗后,写入数据湖中与所述数据流对应的数据表;
[0026]聚合模块,用于在所述数据湖中对每个所述数据表的数据按预设主键进行排序和索引,以供下游任务读取。
[0027]为实现上述目的,本申请实施例还提供一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的埋点数据处理程序,所述埋点数据处理程序被所述处理器执行时实现如上述的埋点数据处理方法。
[0028]为实现上述目的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有埋点数据处理程序,所述埋点数据处理程序被处理器执行时实现如上述的埋点数据处理方法。
[0029]本申请实施例提出的埋点数据处理方法、系统、电子装置及计算机可读存储介质,能够通过对埋点数据处理架构的调整,和HUDI能力的结合,在上报、传输、清洗过程中对埋点数据按规则分流,进行业务隔离,提升隔离性,并且在埋点数据落入数据湖表后进行排序和索引,减少读取数据时的IO开销。
附图说明
[0030]图1为实现本申请各个实施例的一种应用环境架构图;
[0031]图2为现有的一种埋点数据处理链路的示意图;
[0032]图3为本申请第一实施例提出的一种埋点数据处理方法的流程图;
[0033]图4为本申请第二实施例提出的一种埋点数据处理方法的流程图;
[0034]图5为本申请第二实施例中的一种埋点数据处理链路示意图;
[0035]图6为本申请第三实施例提出的一种电子装置的硬件架构示意图;
[0036]图7为本申请第四实施例提出的一种埋点数据处理系统的模块示意图;
[0037]图8为本申请第五实施例提出的一种埋点数据处理系统的模块示意图。
具体实施方式
[0038]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0039]需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
[0040]请参阅图1,图1为实现本申请各个实施例的一种应用环境架构图。本申请可应用于包括,但不仅限于客户端2、服务端4、网络6的应用环境中。
[0041]其中,所述客户端2用于向用户提供各种应用程序(APP),并从所述APP中获取埋点数据,上报至服务端。所述客户端2可以为PC(Personal Computer,个人电脑)、手机、平板电脑、便携计算机、可穿戴设备等终端设备。
[0042]所述服务端4用于接收所述客户端2上报的埋点数据,进行传输、清洗后写入数据湖,以供下游业务方使用。所述服务端4可以包括多个服务器,分别用于所述上报、传输、清洗、写入等各个过程的数据处理。所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
[0043]所述网络6可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种埋点数据处理方法,其特征在于,所述方法包括:接收客户端上报的埋点数据,所述埋点数据根据预设规则进行分流上报;针对每个数据流分别进行传输和清洗后,写入数据湖中与所述数据流对应的数据表;在所述数据湖中对每个所述数据表的数据按预设主键进行排序和索引,以供下游任务读取。2.根据权利要求1所述的埋点数据处理方法,其特征在于,所述方法还包括:响应于下游任务的数据读取请求,以行为事件级别对用户进行权限校验。3.根据权利要求1所述的埋点数据处理方法,其特征在于,所述根据预设规则进行分流上报包括:按照每个业务所需要的埋点数据对应的行为事件标识进行分流上报,将所述埋点数据以业务粒度进行隔离。4.根据权利要求1所述的埋点数据处理方法,其特征在于,所述写入数据湖中与所述数据流对应的数据表包括:在所述数据湖中按照不同业务划分多个数据表,将清洗后的每个数据流分别写入对应业务的数据表中。5.根据权利要求1所述的埋点数据处理方法,其特征在于,所述对每个所述数据表的数据按预设主键进行排序和索引包括:将每个数据表中的埋点数据按照行为事件标识进行排序;将每个行为事件标识对应的数据块在所述数据表中的位置索引记录在表头中。6.根据权利要求2所述的埋点数据处理方法,其特征在于,所述响应于下游任务的数据读取请求,以行为事件级别对用户进行权限校验包括:接收下游任务通过Hive的视图发出的对...

【专利技术属性】
技术研发人员:郑志升蔡梦苑沈汪洋
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1