一种基于优先级规则的用户标识统一方法及系统技术方案

技术编号:27219094 阅读:21 留言:0更新日期:2021-02-04 11:37
本申请提供了一种基于优先级规则的用户标识统一方法及系统:获取每个平台在当前生成周期中的第一用户信息表,基于优先级规则确定其属性优先级顺序,使用优先级最高的非空属性进行合并去重生成每个平台的第二用户信息表;使用优先级最高的非空属性对所有第二用户信息表合并去重生成平台集合的第三用户信息表,将第三用户信息表与上一生成周期的第三用户信息表对比,筛选出信息变化用户放入临时变化表;根据属性优先级顺序构建漏斗状处理链条,区分临时变化表中的信息更新用户和新增用户,与上一生成周期中的用户标识进行统一,生成当前生成周期的统一标识表。本申请提升了用户标识统一方法的扩展性,具有更优的识别准确率和标识稳定性。标识稳定性。标识稳定性。

【技术实现步骤摘要】
一种基于优先级规则的用户标识统一方法及系统


[0001]本申请涉及大数据分析处理领域,具体而言,涉及一种基于优先级规则的用户标识统一方法及系统。

技术介绍

[0002]面向互联网用户的统一标识符生成机制对客户洞察﹑智能推荐﹑营销效果评估等数字化营销活动具有重要价值。通过系统化方法整合来自多平台多渠道的用户信息,串联用户账户以及用户设备与企业系统的所有触点,建立统一的用户视图,可使数字化营销变得更加精准。
[0003]现有技术通常是采用某个或多个固定的属性为基准对用户标识进行统一,例如用户的证件号或手机号,而互联网场景下用户信息呈现多样性和变化性等特点,用户数据的质量参差不齐,这些都使得采用固定属性为基准的方法面临一定的局限性,存在准确度不高﹑无法关联用户行为数据等不足,难以满足各类营销场景的需要。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种基于优先级规则的用户标识统一方法及系统,以解决现有技术的不足。
[0005]第一方面,本申请实施例提供了一种基于优先级规则的用户标识统一方法,该方法包括:
[0006]获取每个平台在当前生成周期中的埋点数据和业务数据,根据所述埋点数据和所述业务数据生成每个所述平台对应的第一用户信息表;
[0007]基于优先级规则确定每个平台的所述第一用户信息表的属性优先级顺序,使用所述属性优先级顺序中优先级最高的非空属性对所述第一用户信息表进行合并去重,生成每个所述平台相对应的第二用户信息表;
[0008]基于每个所述第二用户信息表中所述优先级最高的非空属性对所有平台的所述第二用户信息表进行合并去重,生成针对平台集合的第三用户信息表,将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表进行对比,筛选出当前生成周期中的信息变化用户,放入临时变化表;
[0009]基于所述优先级规则确定上一生成周期中的统一标识表的属性优先级顺序,根据所述上一生成周期中的统一标识表的属性优先级顺序构建漏斗状处理链条,通过所述漏斗状处理链条将所述临时变化表与所述上一生成周期中的统一标识表进行比对,确定出所述信息变化用户中的信息更新用户和新增用户,基于所述信息更新用户所对应的数据和所述新增用户所对应的数据,将当前生成周期中每个所述信息变化用户所对应的用户标识与上一生成周期中每个所述信息变化用户所对应的用户标识进行统一,生成当前生成周期的统一标识表。
[0010]可选的,所述基于优先级规则确定每个平台的所述第一用户信息表的属性优先级
顺序,使用所述属性优先级顺序中优先级最高的非空属性对所述第一用户信息表进行合并去重,生成每个所述平台相对应的第二用户信息表,包括:
[0011]基于所述优先级规则,根据所述第一用户信息表中每个属性的属性值特征,计算所述第一用户信息表中所述属性的优先级顺序;
[0012]按照所述属性优先级顺序确定每条记录的首席属性;其中,所述首席属性为优先级最高的非空属性;
[0013]基于所述首席属性,对每个平台所述第一用户信息表进行合并去重,生成每个平台对应的所述第二用户信息表。
[0014]可选的,所述第一用户信息表中每个所述属性的优先级顺序是通过如下步骤确定的:
[0015]使用如下公式,根据所述第一用户信息表中每个属性的属性值特征,确定所述属性的优先级顺序;
[0016][0017]其中,c
m
为所述第一用户信息表中第m个属性,K为除去c
m
和已确定优先级的属性外剩余的属性数量,P(c
m
|c
i
)函数表示c
m
非空的情况下属性c
i
也为非空的数据量,H(c
m
|c
i
)函数表示c
m
中与属性c
i
存在一对多的数据量,α和β表示权重,F(c
m
)为计算的c
m
优先级值。
[0018]可选的,所述基于每个所述第二用户信息表中所述优先级最高的非空属性对所有平台的所述第二用户信息表进行合并去重,生成针对平台集合的第三用户信息表,将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表进行对比,筛选出当前生成周期中的信息变化用户,放入临时变化表,包括:
[0019]基于所述优先级最高的非空属性对所有所述第二用户信息表进行合并去重,得到当前生成周期中平台集合所对应的所述第三用户信息表;
[0020]将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表中各属性数据进行对比,根据对比结果筛选出本生成周期中的信息变化用户,放入所述临时变化表。
[0021]可选的,所述将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表中各属性数据进行对比,根据对比结果筛选出本生成周期中的信息变化用户,放入所述临时变化表,包括:
[0022]根据所述第三用户信息表中每个用户对应的属性数据按照固定顺序连接,取MD5值生成每个用户所对应的第一指纹信息;
[0023]根据所述上一生成周期的第三用户信息表中每个用户对应的属性数据按照固定顺序连接,取MD5值生成每个用户所对应的第二指纹信息;
[0024]基于所述第一指纹信息和所述第二指纹信息的对比结果,筛选出当前生成周期中的信息变化用户,放入所述临时变化表。
[0025]可选的,所述基于所述优先级规则确定上一生成周期中的统一标识表的属性优先级顺序,根据所述上一生成周期中的统一标识表的属性优先级顺序构建漏斗状处理链条,通过所述漏斗状处理链条将所述临时变化表与所述上一生成周期中的统一标识表进行比对,确定出所述信息变化用户中的信息更新用户和新增用户,基于所述信息更新用户所对
应的数据和所述新增用户所对应的数据,将当前生成周期中每个所述信息变化用户所对应的用户标识与上一生成周期中每个所述信息变化用户所对应的用户标识进行统一,生成当前生成周期的统一标识表,包括:
[0026]确定所述上一生成周期的统一标识表的属性优先级顺序,并基于所述属性优先级顺序构建所述漏斗状处理链条;
[0027]根据所述漏斗状处理链条,依次将所述临时变化表中各属性值与所述上一生成周期的统一标识表进行对比,若所述漏斗状处理链条与所述临时变化表中的属性值关联上,则所述属性值对应的用户为所述信息更新用户,全部对比完毕后仍未关联上的为所述新增用户;
[0028]分别将所述信息更新用户和所述新增用户与上一生成周期中的用户进行标识统一,为所述新增用户生成新的统一用户标识,所述信息更新用户使用已有标识,生成当前生成周期的统一标识表。
[0029]可选的,所述方法还包括:
[0030]根据所述漏斗状处理链条,将所述临时变化表与所述上一生成周期的统一标识表进行对比,确定出所述信息更新用户和所述新增用户;
[0031]为所述新增用户生成新的用户标识,并添加到所述当前生成周期的统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于优先级规则的用户标识统一方法,其特征在于,包括:获取每个平台在当前生成周期中的埋点数据和业务数据,根据所述埋点数据和所述业务数据生成每个所述平台对应的第一用户信息表;基于优先级规则确定每个平台的所述第一用户信息表的属性优先级顺序,使用所述属性优先级顺序中优先级最高的非空属性对所述第一用户信息表进行合并去重,生成每个所述平台相对应的第二用户信息表;基于每个所述第二用户信息表中所述优先级最高的非空属性对所有平台的所述第二用户信息表进行合并去重,生成针对平台集合的第三用户信息表,将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表进行对比,筛选出当前生成周期中的信息变化用户,放入临时变化表;基于所述优先级规则确定上一生成周期中的统一标识表的属性优先级顺序,根据所述上一生成周期中的统一标识表的属性优先级顺序构建漏斗状处理链条,通过所述漏斗状处理链条将所述临时变化表与所述上一生成周期中的统一标识表进行比对,确定出所述信息变化用户中的信息更新用户和新增用户,基于所述信息更新用户所对应的数据和所述新增用户所对应的数据,将当前生成周期中每个所述信息变化用户所对应的用户标识与上一生成周期中每个所述信息变化用户所对应的用户标识进行统一,生成当前生成周期的统一标识表。2.根据权利要求1所述的方法,其特征在于,所述基于优先级规则确定每个平台的所述第一用户信息表的属性优先级顺序,使用所述属性优先级顺序中优先级最高的非空属性对所述第一用户信息表进行合并去重,生成每个所述平台相对应的第二用户信息表,包括:基于所述优先级规则,根据所述第一用户信息表中每个属性的属性值特征,计算所述第一用户信息表中所述属性的优先级顺序;按照所述属性优先级顺序确定每条记录的首席属性;其中,所述首席属性为优先级最高的非空属性;基于所述首席属性,对每个平台所述第一用户信息表进行合并去重,生成每个平台对应的所述第二用户信息表。3.根据权利要求2所述的方法,其特征在于,所述第一用户信息表中每个所述属性的优先级顺序是通过如下步骤确定的:使用如下公式,根据所述第一用户信息表中每个属性的属性值特征,确定所述属性的优先级顺序;其中,c
m
为所述第一用户信息表中第m个属性,K为除去c
m
和已确定优先级的属性外剩余的属性数量,P(c
m
|c
i
)函数表示c
m
非空的情况下属性c
i
也为非空的数据量,H(c
m
|c
i
)函数表示c
m
中与属性c
i
存在一对多的数据量,α和β表示权重,F(c
m
)为计算的c
m
优先级值。4.根据权利要求1所述的方法,其特征在于,所述基于每个所述第二用户信息表中所述优先级最高的非空属性对所有平台的所述第二用户信息表进行合并去重,生成针对平台集合的第三用户信息表,将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表进行对比,筛选出当前生成周期中的信息变化用户,放入临时变化表,包括:
基于所述优先级最高的非空属性对所有所述第二用户信息表进行合并去重,得到当前生成周期中平台集合所对应的所述第三用户信息表;将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表中各属性数据进行对比,根据对比结果筛选出本生成周期中的信息变化用户,放入所述临时变化表。5.根据权利要求4所述的方法,其特征在于,所述将所述第三用户信息表中各属性数据与上一生成周期的第三用户信息表中各属性数据进行对比,根据对比结果筛选出本生成周期中的信息变化用户,放入所述临时变化表,包括:根据所述第三用户信息表中每个用户对应的属性数据按照固定顺序连接,取MD5值生成每个用户所对应的第一指纹信息;根据所述上一生成周期的第三用户信息表中每个用户对应的属性数据按照固定顺序连接,取MD5值生成每个用户所对应的第二指纹信息;基于所述第一指纹信息和所述第二指纹信息的对比...

【专利技术属性】
技术研发人员:秦秀磊李丹丹
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1