唯一自然人标识计算的方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34442432 阅读:16 留言:0更新日期:2022-08-06 16:33
本发明专利技术提供了一种唯一自然人标识计算的方法、装置、电子设备和存储介质,其中唯一自然人标识计算的方法包括:根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。的聚合表的每一行都标记唯一自然人标识。的聚合表的每一行都标记唯一自然人标识。

【技术实现步骤摘要】
唯一自然人标识计算的方法、装置、电子设备和存储介质


[0001]本专利技术涉及圈选计算领域。

技术介绍

[0002]唯一自然人标识算法主要是为人群圈选逻辑提供唯一的维度进行人群包定向输出。
[0003]在进行业务精细化运营的过程中,人群圈选计算时可能会通过不同的ID进行(既要、又要、还要),例如:需要圈选出过去30天点过轮胎广告(可能未注册,仅有设备信息)并且性别是男年龄在30岁以内的所有用户,显然这需要从设备ID与用户ID两个维度进行圈选,如果按照这样的逻辑实现,圈选过程会相当复杂,而且性能不高,因此急需把数据关联到某一个维度,在这个维度上进行圈选,那么就会很容易了,这就是唯一自然人标识算法应用场景。
[0004]目前业界大部分的做法都是基于GraphX的图计算能力来统一计算的,基于Spark

GraphX的图计算算法仅支持节点是长整型的类型,不支持诸如设备类的(GUID类型),这样如果要使用的话需要多一层映射关系,计算前进行转换一次,计算后还需要转换回来。其缺点主要在于以下几方面:
[0005]第一、不支持直接字符串ID计算;
[0006]第二、需要维护映射关系;
[0007]第三、大批量数据计算因映射关系中间环节导致很慢。

技术实现思路

[0008]下文呈现各种示例性技术方案的概述。在以下概述中可以进行一些简化和省略,其意在突出并介绍各种示例性技术方案的一些方面,但不限制本专利技术的范围。将在后续部分呈现足以允许本领域的普通技术人员产生并使用本专利技术概念的示例性技术方案的详细描述。
[0009]本专利技术的技术方案提供一种唯一自然人标识计算的方法,包括:根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。
[0010]可选地,所述用户设备宽表至少包括以下至少之一:UserId、DeviceId、phone、imei、idfa、openid、Tags。
[0011]可选地,所述方法还包括:循环迭代中将迭代计算表或聚合表的数据重新分布,平均分配给不同的机器。
[0012]可选地,所述方法还包括:迭代计算中将迭代计算表的数据序列化和反序列化的操作。
[0013]可选地,所述聚合表包括Context,判断Context每一列内容是否有重复,有重复则合并。
[0014]本专利技术的另一个技术方案提供了一种唯一自然人标识计算的装置,包括:建表模块,被配置为根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:计算模块,被配置为:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。
[0015]可选地,所述用户设备宽表至少包括以下至少之一:UserId、DeviceId、phone、imei、idfa、openid、Tags。
[0016]可选地,计算模块还被配置为在循环迭代中将迭代计算表或聚合表的数据重新分布,平均分配给不同的机器。
[0017]可选地,计算模块还被配置为在迭代计算中将迭代计算表的数据序列化和反序列化的操作。
[0018]可选地,所述聚合表包括Context,判断Context每一列内容是否有重复,有重复则合并。
[0019]本专利技术的另一个技术方案还提供了一种电子设备,包括:处理器、存储器以及存储在存储器上运行的计算机程序,所述处理器执行计算机程序时实现上述任一个技术方案所述的方法的步骤。
[0020]本专利技术的另一个技术方案还提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现上述任一个技术方案所述的方法的步骤。
[0021]本专利技术的技术方案主要具有以下几个发面的有益效果:
[0022]第一、通过自研的大规模连通图算法,直接基于原生GUID类型计算出连通图,快速的把不同ID维度所有的连通图聚合出来,并赋值唯一ID,相对行业采用Spark

GraphX计算的方案本方法不需要在进行一层ID映射操作,直接对原生数据进行操作即可,所见即所得。
[0023]第二、把网站内外所有能够关联上的用户都打上唯一的ID,并且生成的OneId是一种自增的数值类型,方便后续的操作(例如BitMap),可以完美支持基于bitmap进行人群圈选的高效方案
[0024]第三、该算法大大降低了OneID生成的时间,提高了效率。
附图说明
[0025]为了更好地理解各种示例性实施例,可以参考附图,在附图中:
[0026]图1示出了实施例提供的唯一自然人标识计算的方法的流程示意图;
[0027]图2示出了实施例提供的唯一自然人标识计算的方法中部分步骤的示意图;
[0028]图3示出了实施例提供的唯一自然人标识计算的方法中部分步骤的示意图;
[0029]图4示出了实施例提供的唯一自然人标识计算的装置的结构示意图。
[0030]为了便于理解,相同的附图标记已用于指代具有基本上相同或类似结构和/或基本上相同或类似功能的元件。
具体实施方式
[0031]描述和图式示出了本专利技术的原理。因此,将了解,本领域的技术人员将能够设计各种布置,尽管本文中未明确地描述或示出所述布置,但所述布置体现本专利技术的原理且包括在本专利技术的范围内。此外,本文中所引述的所有例子主要旨在明确地用于教学目的,以帮助读者理解本专利技术的原理和由专利技术人提供的用以深化本领域的概念,并且所有例子应视为并不限于此类特定引述的例子和条件。另外,如本文中所使用,除非另有指示(例如,“或另外”或“或在替代方案中”),否则术语“或”是指非排他性的或(即,和/或)。并且,本文中所描述的各种实施例不一定相互排斥,因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。
[0032]术语解释:
[0033]图计算:指图计算里边的最大联通图算法。
[0034]唯一自然人标识:在互联网电商里边,一个人的唯一标识可以是用户ID、设备ID、OpenID、手机号等等,分别散落在各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唯一自然人标识计算的方法,其特征在于,包括:根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:进行第一次迭代计算,用户设备宽表中每一行选择第一个不为空的值,作为UniqueId,形成单独一列,每一行原先的内容作为Context;形成第一次迭代计算表;进行第一次聚合,把第一次迭代计算表中具有相同UniqueId的行合并,去掉UniqueId的列,形成第一次聚合表;循环迭代,把第一次聚合表的每一列字段依次作为UniqueId,重复进行上述迭代计算和聚合,形成最后的聚合表;将最后的聚合表的每一行都标记唯一自然人标识。2.根据权利要求1所述的唯一自然人标识计算的方法,其特征在于,所述用户设备宽表至少包括以下至少之一:UserId、DeviceId、phone、imei、idfa、openid、Tags。3.根据权利要求1所述的唯一自然人标识计算的方法,其特征在于,还包括:循环迭代中将迭代计算表或聚合表的数据重新分布,平均分配给不同的机器。4.根据权利要求1所述的唯一自然人标识计算的方法,其特征在于,还包括:迭代计算中将迭代计算表的数据序列化和反序列化的操作。5.根据权利要求4所述的唯一自然人标识计算的方法,其特征在于,所述聚合表包括Context,判断Context每一列内容是否有重复,有重复则合并。6.一种唯一自然人标识计算的装置,其特征在于,包括:建表模块,被配置为根据用户和设备的信息生成用户设备宽表,所述用户设备宽表中包括与用户和设备相关的字段和其对应的值:计算模块,被配置为:进行第一次迭代计算...

【专利技术属性】
技术研发人员:宋亚恒
申请(专利权)人:上海虎瑾信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1