一种多通道实时用户数据分析方法技术

技术编号:39801097 阅读:11 留言:0更新日期:2023-12-22 02:31
本申请公开了一种多通道实时用户数据分析方法

【技术实现步骤摘要】
一种多通道实时用户数据分析方法、装置、设备、介质


[0001]本专利技术涉及大数据实时处理
,特别涉及一种多通道实时用户数据分析方法

装置

设备

介质


技术介绍

[0002]现有技术中对于用户数据分析主要是利用用户数据分析系统并利用离线数据分析技术实现用户数据的数据分析,对于用户数据的处理和分析

用户多身份的唯一识别,多平台多途径的用户数据的合并都是离线进行的,也即缺乏时效性,无法充分利用实时数据的实时价值

[0003]综上,如何实现对实时用户数据的数据分析,充分保证用户数据的时效性,利用用户数据的实时价值是本领域有待解决的技术问题


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种多通道实时用户数据分析方法

装置

设备

介质,能够实现对实时用户数据的数据分析,充分保证用户数据的时效性,利用用户数据的实时价值

其具体方案如下:
[0005]第一方面,本申请公开了一种多通道实时用户数据分析方法,包括:
[0006]获取通过各个通道的收集的外部数据源的实时用户数据;
[0007]对可重用组件按照数据清洗任务进行流程编排,以获取预配置可重用组件;
[0008]利用所述预配置可重用组件对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据;r/>[0009]提取所述目标实时用户数据的身份标识,并基于所述身份标识与预设用户身份表对所有实时用户数据进行数据合并,以获取多个携带唯一身份标识的用户数据组;其中,一个用户数据组中的所有实时用户数据对应同一个唯
[0010]一身份标识,每个用户数据组的唯一身份标识均不同于其他用户数据组

[0011]可选的,所述获取通过各个通道的收集的外部数据源的实时用户数据,包括:
[0012]获取通过各个通道的收集的外部数据源的实名用户数据和匿名用户数据

[0013]可选的,所述对可重用组件按照数据清洗任务进行流程编排,以获取预配置可重用组件,包括:
[0014]通过处理条件

组件名称

组件参数

失败策略对可重用组件进行流程编排控制;
[0015]当接收数据清洗指令时,通过动态编译技术对所述可重用组件进行编译,以生成对应的组件实例作为预配置可重用组件;
[0016]相应的,所述利用所述预配置可重用组件对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据,包括:
[0017]利用所述组件实例对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据

[0018]可选的,所述提取所述目标实时用户数据的身份标识,并基于所述身份标识与预设用户身份表对所有实时用户数据进行数据合并,以获取多个携带唯一身份标识的用户数据组,包括:
[0019]从所述目标实时用户数据的身份字段中提取身份标识,并基于所有目标实时用户数据的身份标识构建身份标识集合;
[0020]查询预设用户身份表,判断所述预设用户身份表中是否存在与所述身份标识集合中的各个身份标识对应的用户编号;若存在,则将所述用户编号存储至用户
ID
集合中;若不存在,则新生成对应的新用户编号,并构建存储所述新用户编号与对应的身份标识的身份映射关系于所述预设用户身份表中,并将该新用户编号存储至所述用户
ID
集合中;
[0021]查询所述用户
ID
集合,若所述
ID
用户集合有且仅有一个用户编号,则将所述用户编号作为唯一身份标识;
[0022]若所述用户
ID
集合有多个用户编号,则取数值最小的用户编号作为唯一身份标识;
[0023]对含有多个用户编号的每个用户
ID
集合中除所述唯一身份标识外的其他
[0024]用户编号对应的目标实时用户数据进行数据合并,以生成对应的多个用户数据组

[0025]可选的,所述对含有多个用户编号的每个用户
ID
集合中除所述唯一身份标识外的其他用户编号对应的目标实时用户数据进行数据合并,以生成对应的多个用户数据组,包括:
[0026]以消息队列的主题中的分区数量作为合并栅栏的消息数量,对每一消息队列分区发送对应的合并栅栏编号,以生成用户编号合并栅栏通知;其中,所述合并栅栏编号携带唯一身份标识

栅栏数量和其他用户编号;
[0027]将所述唯一身份标识放进消息体中,并将所述用户编号合并栅栏通知发送至下游消息队列中;
[0028]基于所述下游消息队列中的合并栅栏消息对所述目标实时用户数据进行数据合并,以生成对应的多个用户数据组

[0029]可选的,所述基于所述下游消息队列中的合并栅栏消息对所述目标实时用户数据进行数据合并,以生成对应的多个用户数据组,包括:
[0030]当执行数据合并操作时,以其他用户编号作为子用户编号的查询条件从预设数据库中查询所有关联记录,并从任务状态中取出对应的状态数据,将所述状态数据合并至唯一身份标识对应的关联记录下,计算聚合值并更新所述预设数据库中的关联记录

[0031]可选的,所述多通道实时用户数据分析方法,还包括:
[0032]利用预配置可重用组件并基于各个字段对应的聚合规则

时间窗口对数据清洗后的目标实时用户数据进行数据聚合,并保存数据聚合后的状态数据于任务状态中,然后将状态数据同步批量写入至预设数据库中

[0033]第二方面,本申请公开了一种多通道实时用户数据分析装置,包括:
[0034]数据收集模块,用于获取通过各个通道的收集的外部数据源的实时用户数据;
[0035]组件配置模块,用于对可重用组件按照数据清洗任务进行流程编排,以获取预配置可重用组件;
[0036]数据清洗模块,用于利用所述预配置可重用组件对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据;
[0037]数据合并模块,用于提取所述目标实时用户数据的身份标识,并基于所
[0038]述身份标识与预设用户身份表对所有实时用户数据进行数据合并,以获取多个携带唯一身份标识的用户数据组;其中,一个用户数据组中的所有实时用户数据对应同一个唯一身份标识,每个用户数据组的唯一身份标识均不同于其他用户数据组

[0039]第三方面,本申请公开了一种电子设备,包括:
[0040]存储器,用于保存计算机程序;
[0041]处理器,用于执行所述计算机程序,以实现前述公开的多通道实时用户数据分析方法的步骤

[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种多通道实时用户数据分析方法,其特征在于,包括:获取通过各个通道的收集的外部数据源的实时用户数据;对可重用组件按照数据清洗任务进行流程编排,以获取预配置可重用组件;利用所述预配置可重用组件对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据;提取所述目标实时用户数据的身份标识,并基于所述身份标识与预设用户身份表对所有实时用户数据进行数据合并,以获取多个携带唯一身份标识的用户数据组;其中,一个用户数据组中的所有实时用户数据对应同一个唯一身份标识,每个用户数据组的唯一身份标识均不同于其他用户数据组
。2.
根据权利要求1所述的多通道实时用户数据分析方法,其特征在于,所述获取通过各个通道的收集的外部数据源的实时用户数据,包括:获取通过各个通道的收集的外部数据源的实名用户数据和匿名用户数据
。3.
根据权利要求1所述的多通道实时用户数据分析方法,其特征在于,所述对可重用组件按照数据清洗任务进行流程编排,以获取预配置可重用组件,包括:通过处理条件

组件名称

组件参数

失败策略对可重用组件进行流程编排控制;当接收数据清洗指令时,通过动态编译技术对所述可重用组件进行编译,以生成对应的组件实例作为预配置可重用组件;相应的,所述利用所述预配置可重用组件对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据,包括:利用所述组件实例对所述实时用户数据进行数据清洗,以获取预设数据格式的目标实时用户数据
。4.
根据权利要求1所述的多通道实时用户数据分析方法,其特征在于,所述提取所述目标实时用户数据的身份标识,并基于所述身份标识与预设用户身份表对所有实时用户数据进行数据合并,以获取多个携带唯一身份标识的用户数据组,包括:从所述目标实时用户数据的身份字段中提取身份标识,并基于所有目标实时用户数据的身份标识构建身份标识集合;查询预设用户身份表,判断所述预设用户身份表中是否存在与所述身份标识集合中的各个身份标识对应的用户编号;若存在,则将所述用户编号存储至用户
ID
集合中;若不存在,则新生成对应的新用户编号,并构建存储所述新用户编号与对应的身份标识的身份映射关系于所述预设用户身份表中,并将该新用户编号存储至所述用户
ID
集合中;查询所述用户
ID
集合,若所述
ID
用户集合有且仅有一个用户编号,则将所述用户编号作为唯一身份标识;若所述用户
ID
集合有多个用户编号,则取数值最小的用户编号作为唯一身份标识;对含有多个用户编号的每个用户
ID
集合中除所述唯一身份标识外的其他用户编号对应的目标实时用户数据进行数据合并,以...

【专利技术属性】
技术研发人员:娄瑶佳
申请(专利权)人:上海盟聚信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1