一种用户统一标识生成方法与系统技术方案

技术编号:35204505 阅读:13 留言:0更新日期:2022-10-15 10:14
本发明专利技术公开了一种用户统一标识生成方法与系统,所述系统包括数据抽取模块、数据预处理模块、连通图生成模块、连通图处理模块、部署模块;其中数据抽取模块包括HUE调度模块和Hive存储模块;数据预处理模块包括脚本处理数据模块、SQL数据清洗模块和主键数据存储模块;连通图生成模块包括点集合定义模块、边集合定义模块和连通图形成模块;连通图处理模块包括权重处理模块和统一标识生成模块。本发明专利技术采用大数据技术,基于多方数据源进行用户统一标识计算,将“数据孤岛”下的数据资产跨渠道共享,为汽车领域的用户精准画像、多渠道触达和智能推荐提供了技术支撑,有效解决了现有技术中用户统一标识生成的准确性低、耗费资源多和应用有限的问题。有限的问题。有限的问题。

【技术实现步骤摘要】
一种用户统一标识生成方法与系统


[0001]本专利技术涉及大数据
,尤其涉及一种用户统一标识生成方法与系统。

技术介绍

[0002]当今时代,数据量大幅增长,从而形成一个个的“数据孤岛”。为了数据的最大化利用,就需要将这些不同渠道、不同来源的“ID”进行统一拉齐和打通,将“数据孤岛”下的数据资产进行跨渠道共享,从而实现用户的精准画像、多渠道触达和智能推荐。
[0003]然而,在实际的业务中,用户可能使用各种各样的设备,有着各种各样的前端入口,甚至同一个用户拥有多个设备以及使用多种前端入口,就会出现日志中对同一人不同时间段所收集到的数据可能取到的标识个数,各类各不相同。如:用户可能会使用的设备包括:手机、平板电脑,手机又包括安卓手机、IOS手机、winphone手机等,安卓也有各种不同的版本,同理,IOS也必须各种不同的版本。
[0004]由此带来的问题:用户设备的标识没办法轻易定制一个规则来作为唯一标识、不同媒体APP的取法不一样,常见的id标识各类如下:mac(手机网卡的物理地址)、IMEI(手机串号)、IMSI(手机SIM卡序号)、androidid(安卓id)、openuuid(APP自己生成的序号)、idfa(广告跟踪码)等。从而导致有一些数据中,用户有登录帐号,而有些却没有,有一些数据中,有imei码、mac地址,而有些则没有mac地址和android。在此情形之下来生成用户的唯一标识,很可能错漏百出的。
[0005]公开号为CN114329211A的中国专利申请公开了一种用户画像确定方法、装置 及电子设备,涉及大数据
,尤其涉及数据分析领域,具体实现方案为:获取目标平台端的数据集,所述数据集包括多个维度的数据信息;基于所述多个维度的数据信息,获得M个第一数仓表,每个第一数仓表包括至少一个维度的数 据信息,且不同的第一数仓表对应的维度不同,M为正整数;根据所述M个第一数仓表确定所述目标平台端的用户画像,但该方法存在生成用户统一标识准确性低,耗费资源多和应用有限的问题。

技术实现思路

[0006]本专利技术的目的在于解决目前现有技术生成用户统一标识准确性低、耗费资源多和应用有限的技术问题,提供一种用户统一标识生成方法与系统。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种用户统一标识生成方法,包括以下步骤:步骤1:从各数据源抽取数据;步骤2:将抽取的数据存入前置表,在前置表中进行数据预处理;步骤3:进行用户ID匹配,获得用户各ID的连通图;步骤4:对用户的初步连通图进行处理,构建统一标识模型;步骤5:将统一标识部署在应用平台中。
[0008]具体的,步骤1包括以下子步骤:
步骤11:使用大数据组件SQOOP进行数据源抽取、HUE进行任务调度,每天定时执行SQOOP任务;步骤12:对取到的数据,进行分类存储到Hive中。
[0009]具体的,步骤2包括以下子步骤:步骤21:使用shell编译器脚本工具,对存储在Hive中的数据进行处理;步骤22:使用SQL语言,对主键进行有效性检查,经去重和清洗后保留;步骤23:将处理后的主键数据,储存在点数据表中。
[0010]具体的,步骤3包括以下子步骤:步骤31:定义点集合;步骤32:划定权重,定边的规则,定义边集合;步骤33:形成连通图。
[0011]具体的,步骤4包括以下子步骤:步骤41:使用kruskal算法、Pram 算法构建模型,对连通图根据权重进行处理;步骤42:生成统一标识。
[0012]一种用户统一标识生成系统,包括:数据抽取模块:用于从数据源进行抽取数据;数据预处理模块:用于将抽取数据存入前置表,在前置表中进行数据预处理;连通图生成模块:用于进行用户ID匹配,获得用户各ID的连通图;连通图处理模块:用于对用户的初步连通图进行处理,构建统一标识模型;部署模块:用于将统一标识部署在应用平台中。
[0013]具体的,所述数据抽取模块包括以下子模块:HUE调度模块:使用大数据组件SQOOP进行数据源抽取、HUE进行任务调度,每天定时执行SQOOP任务;Hive存储模块:对取到的数据,进行分类存储到Hive中。
[0014]具体的,所述数据预处理模块包括以下子模块:脚本处理数据模块:使用shell编译器脚本工具,对存储在Hive中的数据进行处理;SQL数据清洗模块:使用SQL语言,对主键进行有效性检查、去重和清洗;主键数据存储模块:将处理后的主键数据,储存在点数据表中。
[0015]具体的,所述连通图生成模块包括以下子模块:点集合定义模块:定义点集合;边集合定义模块:划定权重,定边的规则,定义边集合;连通图形成模块:形成连通图。
[0016]具体的,所述连通图处理模块包括以下子模块:权重处理模块:使用kruskal算法、Pram 算法构建模型,对连通图根据权重进行处理;统一标识生成模块:生成统一标识。
[0017]本专利技术的有益效果:(1)生成的统一标识准确性高,检验唯一性准确度达80%以上。
[0018](2)生成过程中不仅耗费算力资源少且提升生成过程速度。
[0019](3)生成出的统一标识兼容性好,可用于各个平台。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0021]图1是本专利技术的系统结构示意图;图2是本专利技术的流程图。
具体实施方式
[0022]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0023]为了对本专利技术的技术特征、目的和有益效果有更加清楚的理解,现对本专利技术的技术方案精选以下详细说明。显然,所描述的实施案例是本专利技术一部分实施例,而不是全部实施例,不能理解为对本专利技术可实施范围的限定。基于本专利技术的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的其他所有实施例,都属于本专利技术的保护范围。
[0024]实施例一:如图1所示,一种用户统一标识生成方法,包括以下步骤:步骤1:从各数据源抽取数据;步骤2:将抽取的数据存入前置表,在前置表中进行数据预处理;步骤3:进行用户ID匹配,获得用户各ID的连通图;步骤4:对用户的初步连通图进行处理,构建统一标识模型;步骤5:将统一标识部署在应用平台中。
[0025]具体的,步骤1包括以下子步骤:步骤11:使用大数据组件SQOOP进行数据源抽取、HUE进行任务调度,每天定时执行SQOOP任务;步骤12:对取到的数据,进行分类存储到Hive中。
[0026]具体的,步骤2包括以下子步骤:步骤21:使用shell编译器脚本工具,对存储在Hive中的数据进行处理;步骤22:使用SQL语言,对主键进行有效性检查,经去重和清洗后保留;步骤23:将处理后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户统一标识生成方法,包括以下步骤:步骤1:从各数据源抽取数据;步骤2:将抽取的数据存入前置表,在前置表中进行数据预处理;步骤3:进行用户ID匹配,获得用户各ID的连通图;步骤4:对用户的初步连通图进行处理,构建统一标识模型;步骤5:将统一标识部署在应用平台中。2.根据权利要求1所述的一种用户统一标识生成方法,其特征在于,步骤1包括以下子步骤:步骤11:使用大数据组件SQOOP进行数据源抽取、HUE进行任务调度,每天定时执行SQOOP任务;步骤12:对取到的数据,进行分类存储到Hive中。3.根据权利要求1所述的一种用户统一标识生成方法,其特征在于,步骤2包括以下子步骤:步骤21:使用shell编译器脚本工具,对存储在Hive中的数据进行处理;步骤22:使用SQL语言,对主键进行有效性检查,经去重和清洗后保留;步骤23:将处理后的主键数据,储存在点数据表中。4.根据权利要求1所述的一种用户统一标识生成方法,其特征在于,步骤3包括以下子步骤:步骤31:定义点集合;步骤32:划定权重,定边的规则,定义边集合;步骤33:形成连通图。5.根据权利要求1所述的一种用户统一标识生成方法,其特征在于,步骤4包括以下子步骤:步骤41:使用kruskal算法、Pram 算法构建模型,对连通图根据权重进行处理;步骤42:生成统一标识。6.一种用户统一标识生成系统,其特征在于,包括:数据抽取模块:用于从数据源进行抽取数据;数据预处...

【专利技术属性】
技术研发人员:李成于克甲蒋丰泽王皓夏晓明
申请(专利权)人:启明信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1