数据分析方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39434158 阅读:14 留言:0更新日期:2023-11-19 16:17
本申请的实施方式提供了一种数据分析方法、装置、电子设备和存储介质。该方法包括:对业务埋点进行埋点治理以形成埋点事件模型;基于埋点事件模型采集埋点事件数据;基于埋点事件模型对埋点事件数据进行储存,以得到存储分析数据;基于存储分析数据进行数据分析,得到分析结果。本申请提供的方案,能够满足数据分析处理的实时性和高效性,实现数据自动化运维,满足用户的数据可视化分析需求,提升用户满意度。满意度。满意度。

【技术实现步骤摘要】
数据分析方法、装置、电子设备和存储介质


[0001]本申请的实施方式一般地涉及数据分析领域,更具体地,本申请的实施方式涉及数据分析方法、装置、电子设备和存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]随着互联网技术和大数据技术的快速发展,数据使用方需要更加高效精准地进行数据分析,以便更好地把握市场趋势和用户需求。然而,由于数据来源的多样性、埋点数据质量不高、数据传输的滞后性、传输链路运维非自动化、大数据量下可视化展示数据的低效性以及可视化分析场景的单一性等种种原因,数据分析平台的建设和运维仍然面临着很大的困难。
[0004]其中,埋点数据质量不高的原因包括有:必要的埋点数据无法采集造成数据不完整、同一事件被重复埋点导致数据冗余、错误采集埋点数据导致数据错误、埋点数据采集延迟导致数据不及时、埋点数据在传输过程中丢失导致数据缺失、埋点数据量过大以及埋点数据格式不统一等等。而且不同业务开发各自埋点,加剧了埋点数据质量差的问题的同时,造成了不同业务之间数据孤岛的问题。
[0005]另外,在大数据场景下,实时数据分析平台需要建立在高并发、高吞吐量的流式处理架构上。然而传统数据分析平台对埋点治理采用的策略是“先采集,后治理”,从而导致在数据处理过程中要考虑到数据格式的多样性以及数据的复杂性。在如多层次的数据结构、如多层次的数据嵌套关系的情况下,对计算和存储资源要求很高。考虑到成本和效益的平衡,传统数据分析平台采用离线架构,数据T+1更新,但这样的话就无法满足数据传输的实时性和高效性的要求,也造成了实时查询效率低,难以支持实时快速进行可视化看板的调整配置。同时地,传统数据分析平台由于采集到的数据复杂性高,导致数据清洗、转换逻辑过程复杂,数据接入链路难以实现自动化,造成运维成本高的问题。
[0006]再者,传统数据分析平台支持的分析模型不够多样,进一步限制用户从不同的角度去分析数据。而且传统数据分析平台的埋点系统一般只能对埋点数据单独进行分析,难以关联到系统已有的用户数据、订单数据和标签信息等,会导致已有数据资产的浪费,难以获取更加全面和准确的用户行为轨迹。
[0007]有鉴于此,亟需提出一种能够规范统一数据格式的数据分析方法,以能够满足数据分析处理的实时性和高效性,实现数据自动化运维,满足用户的数据可视化分析需求,提升用户满意度。

技术实现思路

[0008]为克服相关技术中存在的问题,本申请的实施方式期望提供一种数据分析方法、装置、电子设备和存储介质。该数据分析方法能够满足数据分析处理的实时性和高效性,实现数据自动化运维,满足用户的数据可视化分析需求,提升用户满意度。
[0009]在本申请实施方式的第一方面中,提供了一种数据分析方法,包括:对业务埋点进行埋点治理以形成埋点事件模型;基于埋点事件模型采集埋点事件数据;基于埋点事件模型对埋点事件数据进行储存,以得到存储分析数据;基于存储分析数据进行数据分析,得到分析结果。
[0010]在一个实施例中,对业务埋点进行埋点治理以形成埋点事件模型包括:配置埋点存储格式;分别根据各业务终端的业务内容确定各业务终端对应的业务公参和业务私参;分别根据全局公参以及各业务终端对应的业务公参和业务私参确定各业务终端对应的业务参数模板;基于埋点存储格式和各业务终端对应的业务参数模板确定各业务终端对应的埋点事件模型。
[0011]在一个实施例中,配置埋点存储格式包括:配置业务埋点采集的埋点事件数据的数据存储方式;数据存储方式包括事件描述参数、事件时间参数、事件地址参数、事件动作参数以及事件用户参数。
[0012]在一个实施例中,基于埋点存储格式和业务参数模板确定埋点事件模型包括:基于数据存储方式以及业务参数模板,按照Event+User模型确定埋点事件模型。
[0013]在一个实施例中,在基于埋点事件模型采集埋点事件数据之前还包括:获取业务终端基本信息,业务终端基本信息包括数据来源队列、数据存储表名称、表字段以及业务终端对应的埋点事件模型;基于业务终端基本信息建立数据传输链路;通过调用容器编排引擎Kubernetes的API接口使用Flink镜像创建Flink任务,并将数据来源队列的主题Topic以及业务终端对应的埋点事件模型中的业务参数模板作为Flink任务的任务启动命令中的启动参数。
[0014]在一个实施例中,基于埋点事件模型采集埋点事件数据包括:基于埋点事件模型通过SDK采集实时分析数据;和/或基于埋点事件模型导入历史存量数据。
[0015]在一个实施例中,数据来源队列包括原始消息来源队列;在基于埋点事件模型采集埋点事件数据之后还包括:通过网关服务平台对埋点事件数据进行鉴权认证,得到合法数据;通过网关服务平台对合法数据进行预处理,得到预处理数据;通过网关服务平台将预处理数据写入原始消息来源队列。
[0016]在一个实施例中,通过网关服务平台对埋点事件数据进行鉴权认证包括:获取埋点事件数据中的签名密文;通过网关服务平台根据时间戳以及预设密钥创建对照密文;将签名密文与对照密文进行比对;若签名密文与对照密文匹配,则确定埋点事件数据合法。
[0017]在一个实施例中,通过网关服务平台对合法数据进行预处理包括:判断合法数据对应的业务埋点是否是服务端埋点;若是,则获取用户IP字段;若否,则解析业务埋点的http请求,并以第一预设远程地址、第二预设远程地址和第三预设远程地址为顺序依次获取用户IP字段;判断合法数据对应的业务终端是否为预设终端,若是,则根据业务终端的cookie确定业务终端的用户身份信息;以及剔除合法数据中的敏感信息并修正合法数据中的时钟逻辑。
[0018]在一个实施例中,数据来源队列还包括清洗消息来源队列;基于埋点事件模型对埋点事件数据进行储存包括:通过flink任务流式读取原始消息来源队列中的数据信息,得到待存储数据;根据业务终端对应的埋点事件模型中的业务参数模板对待存储数据中的全局公参、业务公参和业务私参进行区分,并且对待存储数据进行加工处理操作,得到目标字符串;加工处理操作包括预置参数添加、业务逻辑处理以及兼容性操作;将目标字符串写入清洗消息来源队列中;通过Doris routine load任务将清洗消息来源队列中的数据信息导入Doris数据库;和/或通过flink任务将清洗消息来源队列中的数据信息储存至Hive数据库。
[0019]在一个实施例中,基于存储分析数据进行数据分析包括:获取分析选项信息;基于分析选项信息确定select语句、数据存储表名称以及分析条件语句;基于select语句、数据存储表名称和分析条件语句生成Sql查询语句;基于Sql查询语句在Doris数据库中进行数据查询,得到待分析查询数据;基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括:对业务埋点进行埋点治理以形成埋点事件模型;基于所述埋点事件模型采集埋点事件数据;基于所述埋点事件模型对所述埋点事件数据进行储存,以得到存储分析数据;基于所述存储分析数据进行数据分析,得到分析结果。2.根据权利要求1所述的数据分析方法,其特征在于,所述对业务埋点进行埋点治理以形成埋点事件模型包括:配置埋点存储格式;分别根据各业务终端的业务内容确定各业务终端对应的业务公参和业务私参;分别根据全局公参以及各业务终端对应的业务公参和业务私参确定各业务终端对应的业务参数模板;基于所述埋点存储格式和各业务终端对应的业务参数模板确定各业务终端对应的埋点事件模型。3.根据权利要求2所述的数据分析方法,其特征在于,所述配置埋点存储格式包括:配置所述业务埋点采集的埋点事件数据的数据存储方式;所述数据存储方式包括事件描述参数、事件时间参数、事件地址参数、事件动作参数以及事件用户参数。4.根据权利要求3所述的数据分析方法,其特征在于,所述基于所述埋点存储格式和所述业务参数模板确定埋点事件模型包括:基于所述数据存储方式以及所述业务参数模板,按照Event+User模型确定埋点事件模型。5.根据权利要求2所述的数据分析方法,其特征在于,所述在基于所述埋点事件模型采集埋点事件数据之前还包括:获取业务终端基本信息,所述业务终端基本信息包括数据来源队列、数据存储表名称、表字段以及所述业务终端对应的埋点事件模型;基于所述业务终端基本信息建立数据传输链路;通过调用容器编排引擎Kubernetes的API接口使用Flink镜像创建Flink任务,并将所述数据来源队列的主题Topi...

【专利技术属性】
技术研发人员:贾豆豆闵程程
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1