【技术实现步骤摘要】
一种基于Spark框架实现IDmapping的方法和装置
本专利技术涉及大数据
,特别是一种基于Spark框架实现IDmapping的方法和装置、计算机存储介质以及计算设备。
技术介绍
IDMapping是大数据领域一项基础且十分关键的技术。简单来说,ID-Mapping就是把几份不同来源的数据,通过某种技术手段识别为同一个用户或主体。例如某一用户张三,在第一个手机上使用AA手机助手,在第二个手机上使用百度地图,在平板电脑上观看爱奇艺视频,在个人电脑上使用AA浏览器,第一个手机、第二个手机和平板电脑经常共用同一个wifi,第二个手机经常通过数据线与个人电脑相连,那么,如何根据这4个设备上的对象的行为及其之间的联系,确定这4个对象为同一个用户,是IDMapping要解决的主要问题。IDMapping具有广泛的应用场景和商业价值。一个用户的行为信息、属性数据是分散在很多不同来源的数据上的,分析单个来源的数据看到的只是这个用户的某一部分特征。通过IDMapping能把用户的碎片化的部分特征全部串联起来,提供一个完整的 ...
【技术保护点】
1.一种基于Spark框架实现ID mapping的方法,包括:/n步骤S1:获取包括多个ID对的二维ID关系表,对每个ID对进行编号,得到初始编号-ID对关系表;/n步骤S2:以ID为key,对所述初始编号-ID对关系表进行拆分和聚合,得到多个初始编号一次聚合子集,其中,每个初始编号一次聚合子集都由初始编号构成;/n步骤S3:以初始编号为key,对所述多个初始编号一次聚合子集进行拆分和聚合,得到初始编号聚合子集结果,其中,所述初始编号聚合子集结果中任意两个初始编号聚合子集之间都不存在交集;使用统一标识符对所述初始编号聚合子集结果进行编号,得到统一标识符-初始编号聚合子集关 ...
【技术特征摘要】
1.一种基于Spark框架实现IDmapping的方法,包括:
步骤S1:获取包括多个ID对的二维ID关系表,对每个ID对进行编号,得到初始编号-ID对关系表;
步骤S2:以ID为key,对所述初始编号-ID对关系表进行拆分和聚合,得到多个初始编号一次聚合子集,其中,每个初始编号一次聚合子集都由初始编号构成;
步骤S3:以初始编号为key,对所述多个初始编号一次聚合子集进行拆分和聚合,得到初始编号聚合子集结果,其中,所述初始编号聚合子集结果中任意两个初始编号聚合子集之间都不存在交集;使用统一标识符对所述初始编号聚合子集结果进行编号,得到统一标识符-初始编号聚合子集关系表;
步骤S4:根据所述统一标识符-初始编号聚合子集关系表和所述初始编号-ID对关系表,得到统一标识符与ID之间的对应关系,实现ID的统一表示。
2.根据权利要求1所述的方法,其中,以初始编号为key,对所述多个初始编号一次聚合子集进行拆分和聚合,得到初始编号聚合子集结果,包括:
以初始编号为key,以所述多个初始编号一次聚合子集作为初次迭代运算的拆分和聚合的对象,进行拆分和聚合的迭代运算,得到所述初始编号聚合子集结果;其中,在每一次迭代运算中,输出聚合后所得到的与其他初始编号聚合子集无交集的初始编号聚合子集,并将剩余的初始编号聚合子集作为下一次迭代运算的拆分和聚合的对象;直到在一次迭代运算中剩余的初始编号聚合子集之间无法再进行聚合时,输出该剩余的初始编号聚合子集,终止迭代运算,并整合每次迭代运算中输出的初始编号聚合子集得到所述初始编号聚合子集结果。
3.根据权利要求1或2所述的方法,其中,步骤S2具体包括:
将所述初始编号-ID对关系表拆分成初始编号-ID关系表;
以ID为key,对所述初始编号-ID关系表进行聚合,得到多个初始编号一次聚合子集,其中,每个初始编号一次聚合子集都由初始编号构成;
对所述初始编号一次聚合子集进行重新编号,得到二次编号-初始编号一次聚合子集关系表。
4.根据权利要求3所述的方法,其中,在进行聚合得到多个初始编号一次聚合子集后,步骤S2还包括:
判断所述多个初始编号一次聚合子集中各子集是否为与其他初始编号一次聚合子集没有交集的孤立子集;
若是,则输出该初始编号一次聚合子集作为目标初始编号聚合子集,并对剩余的初始编号一次聚合子集进行重新编号。
5.根据权利要求4所述的方法,其中,判断所述多个初始编号一次聚合子集中各子集是否为与其他初始编号一次聚合子集没有交集的孤立子集,包括:
统计每个初始编号一次聚合子集的出现次数和包含的元素数量;
将出现次数为2且元素数量为1的初始编号一次聚合子集判断为孤立子集。
6.根据权利要求3-5中任一项所述的方法,其中,步骤S3具体包括:
步骤S31:将所述二次编号-初始编号一次聚合子集关系表拆分成二次编号-初始编号-初始编号一次聚合子集关系表;
步骤S32:以...
【专利技术属性】
技术研发人员:赵林,马征,王斌峰,李晓明,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。