一种实现IDMapping的方法、装置、介质及计算机设备制造方法及图纸

技术编号:38582260 阅读:7 留言:0更新日期:2023-08-26 23:26
本发明专利技术公开了一种实现IDMapping的方法、装置、介质及计算机设备,所述方法包括:获取原始用户数据;根据用户标识判断用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给用户生成标准化用户ID;根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到IDMapping;将IDMapping的数据同步至k,v内存数据库。本发明专利技术能够提供归一化速度快、结果准确性高的IDMapping。IDMapping。IDMapping。

【技术实现步骤摘要】
一种实现IDMapping的方法、装置、介质及计算机设备


[0001]本专利技术涉及一种实现IDMapping的方法、装置、介质及计算机设备,属于数据融合


技术介绍

[0002]随着信息技术的发展,为了满足人们多样性的精神文化需求,各种组织内外部的应用程序越来越多,因此也产生了海量的数据。这些数据中包含了众多的不同类型用户标识发生的行为数据。这些数据看似孤立的,但又存在着关联。如何从多种数据来源,海量的数据,复杂的关系网络中识别出同一用户或者主体的行为,把不同应用或者功能模块中的碎片化用户行为特征串联起来,从而完整准确的刻画用户画像,是IDMapping技术要解决的问题。
[0003]现有IDMapping技术主要分为两大流派:一是选择复杂的归一化算法,数据的准确性得到提高,但是由于算法复杂,随着数据量的增大计算性能瓶颈越显突出,有的只能做到T+1离线数据的归一,对于实时增量数据的更新尚没有很好的解决方法;二是选择高性能的计算引擎和k,v存储数据库,计算和查询性能得到提升,但是计算结果的准确性不高,出现误识别、漏识别的情况比比皆是。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供一种实现IDMapping的方法、装置、介质及计算机设备,能够提供归一化速度快、结果准确性高的IDMapping。为达到上述目的,本专利技术是采用下述技术方案实现的:
[0005]第一方面,本专利技术提供了一种实现IDMapping的方法,包括:
[0006]获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;
[0007]根据用户标识判断用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给用户生成标准化用户ID;
[0008]根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到IDMapping;
[0009]将IDMapping的数据同步至k,v内存数据库。
[0010]结合第一方面,可选的,所述原始用户数据还包括用于建立两个用户间关系的用户行为信息和用户业务办理信息,所述用户行为信息包括:设备识别码、用户注册信息、客户开户信息、用户登录信息。
[0011]结合第一方面,可选的,所述根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,包括:
[0012]预设两个用户标识之间关系强弱的权重;
[0013]基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组;
[0014]将用户二元关系组按预设的关系强弱的权重,从大到小按1至n进行编号;
[0015]从二元关系组1开始遍历关联,与下一个二元关系组2拼接成多元关系组a;若二元关系组1中用户类型与二元关系组2用户类型不重叠则多元关系组a为四元关系组,若二元关系组1中用户类型与二元关系组2用户类型有重叠则多元关系组a为三元关系组;
[0016]将多元关系组a作为初始多元关系组进行遍历关联,与二元关系组3构成多元关系组b;
[0017]将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c;
[0018]重复遍历关联和冲突关系的拆分、合并,直到二元关系组n遍历关联完成,得到归一化的多元关系组。
[0019]结合第一方面,可选的,所述将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c,包括:
[0020]若被关联二元关系组3只有一个用户类型或者没有用户类型包含在初始多元关系组中,则不需要处理冲突;
[0021]若被关联二元关系组3中用户类型均包含在初始多元关系组中,判断二元关系组2中的两种类型用户与初始多元关系组中其他类型用户的关系强弱权重,权重大的用户类型与初始多元关系组其他用户类型编成组1,权重小的用户类型单独成组2;
[0022]多元关系组b中,组1重复的记录判断与权重小的用户类型用户关系建立时间,保留用户关系建立时间较晚的记录,组2重复记录分两种情况来处理,第一种情况为组2对应的组1的用户类型无重复则进行合并,第二种情况为组2对应的组1的用户类型有重复,则判断比较与组1中用户的用户关系建立时间,用户关系建立时间较晚记录保留关系,用户关系建立时间较早的记录断开组1与组2的关系。
[0023]结合第一方面,可选的,还包括对IDMapping进行增量用户关系,具体包括:
[0024]获取原始增量用户数据;
[0025]根据增量用户的用户标识判断增量用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给增量用户生成标准化用户ID;
[0026]判断增量用户关系在IDMapping数据中是否存在;若存在则无需重组;
[0027]若不存在,IDMapping关联增量用户二元关系组,根据用户关系建立时间和预设的关系强弱的权重对多增量用户进行冲突关系的拆分、合并,实现局部重组多元关系组;比较重组多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到增量用户关系的IDMapping。
[0028]结合第一方面,可选的,所述用户标识包括设备用户ID、注册用户ID和经纪客户ID,所述用户标识通过用户登录行为,业务办理行为发生关联关系。
[0029]第二方面,本专利技术提供了一种实现IDMapping的系统,包括:
[0030]获取模块:用于获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;
[0031]标准化用户ID生成模块:用于根据用户标识判断用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给用户生成标准化用户ID;
[0032]ID关系归一模块:用于根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到IDMapping;
[0033]数据同步模块:用于将IDMapping的数据同步至k,v内存数据库。
[0034]结合第二方面,可选的,还包括k,v内存数据库,用于存储IDMapping的数据。
[0035]第三方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现第一方面所述的实现IDMapping的方法。
[0036]第四方面,本专利技术提供了一种计算机设备,包括:
[0037]存储器,用于存储指令;
[0038]处理器,用于执行所述指令,使得所述设备执行实现如第一方面所述的实现IDMapping的方法的操作。
[0039]与现有技术相比,本专利技术实施例所提供的一种基于时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现IDMapping的方法,其特征在于,包括:获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;根据用户标识判断用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给用户生成标准化用户ID;根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到IDMapping;将IDMapping的数据同步至k,v内存数据库。2.根据权利要求1所述的实现IDMapping的方法,其特征在于,所述原始用户数据还包括用于建立两个用户间关系的用户行为信息和用户业务办理信息,所述用户行为信息包括:设备识别码、用户注册信息、客户开户信息、用户登录信息。3.根据权利要求2所述的实现IDMapping的方法,其特征在于,所述根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,包括:预设两个用户标识之间关系强弱的权重;基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组;将用户二元关系组按预设的关系强弱的权重,从大到小按1至n进行编号;从二元关系组1开始遍历关联,与下一个二元关系组2拼接成多元关系组a;若二元关系组1中用户类型与二元关系组2用户类型不重叠则多元关系组a为四元关系组,若二元关系组1中用户类型与二元关系组2用户类型有重叠则多元关系组a为三元关系组;将多元关系组a作为初始多元关系组进行遍历关联,与二元关系组3构成多元关系组b;将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c;重复遍历关联和冲突关系的拆分、合并,直到二元关系组n遍历关联完成,得到归一化的多元关系组。4.根据权利要求3所述的实现IDMapping的方法,其特征在于,所述将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c,包括:若被关联二元关系组3只有一个用户类型或者没有用户类型包含在初始多元关系组中,则不需要处理冲突;若被关联二元关系组3中用户类型均包含在初始多元关系组中,判断二元关系组2中的两种类型用户与初始多元关系组中其他类型用户的关系强弱权重,权重大的用户类型与初始多元关系组其他用户类型编成组1,权重小的用户类型单独成组2;多元关系组b中,组1重复的记录判断与权重小的用户类型用户关系建立时间,保留用户关系建立时间较晚的记录,组2重复记录分两种情况来处理,第一种情况为组2对应的组...

【专利技术属性】
技术研发人员:游海波朱阿柯杨传海龙建益武永兵张生庭李凯平李千顶杜小飞
申请(专利权)人:华泰证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1