【技术实现步骤摘要】
一种基于大数据技术的用户ID关联方法
本专利技术涉及用户ID识别领域,尤其涉及一种基于大数据技术的用户ID关联方法。
技术介绍
随着互联网发展,集团业务可触点渠道越来越多,用户可通过不同身份访问企业业务,与企业发生交易消费行为,导致企业可收集大量用户身份信息。但是,用户身份信息过载难以高效稳定从多渠道识别唯一用户,信息容易疏忽或者丢失,且处理过程复杂,效率低,导致信息缺漏,无法全面掌握用户真实情况,加大用户运营难度,此问题愈发凸显。因此,需要通过用户ID关联的方法去解决用户身份繁多的问题。而在现有技术中,用户ID关联方法有如下几种:1、将业务规则,转化为对应的SQL语句,关联和映射多数据集的主键,完成用户ID关联。2、将数据库数据导出并转化为SparkDataFrame,利用SparkGraphx进行图计算,根据图的连接关系,完成用户ID关联。3、基于用户ID历史日志确定不同的用户ID之间的关联特征,建立用户ID映射关系列表,计算该用户ID和对应的其他类型的用户ID之间的置信度,并以此判断不同 ...
【技术保护点】
1.一种基于大数据技术的用户ID关联方法,其特征在于,所述方法包括以下步骤:/n步骤A,读取配置信息,所述配置信息包括包括数据源表配置,数据表和映射字段配置,结果存储配置,歧义规则;/n步骤B,根据配置信息,从数据仓储拉取数据,构建顶点和边;/n步骤C,通过SparkGraphx将图的顶点和图的边的重复项合并,并根据图的边将图的顶点连接起来,产生若干关联图;/n步骤D,对图的每个顶点有向的搜索N度关系并收集起来,通过规则判断这些顶点的关系集内的节点是否存在歧义,如有则标记为歧义节点;/n步骤E,根据上一步收集到的每个图顶点的N度关系结点,通过规则判断低级别的顶点是否存在多重 ...
【技术特征摘要】
1.一种基于大数据技术的用户ID关联方法,其特征在于,所述方法包括以下步骤:
步骤A,读取配置信息,所述配置信息包括包括数据源表配置,数据表和映射字段配置,结果存储配置,歧义规则;
步骤B,根据配置信息,从数据仓储拉取数据,构建顶点和边;
步骤C,通过SparkGraphx将图的顶点和图的边的重复项合并,并根据图的边将图的顶点连接起来,产生若干关联图;
步骤D,对图的每个顶点有向的搜索N度关系并收集起来,通过规则判断这些顶点的关系集内的节点是否存在歧义,如有则标记为歧义节点;
步骤E,根据上一步收集到的每个图顶点的N度关系结点,通过规则判断低级别的顶点是否存在多重归属关系,如果有则标记;
步骤F,将上一步收集到的歧义结点,根据已配置的歧...
【专利技术属性】
技术研发人员:李元佳,陈新宇,李柱新,李剑伟,
申请(专利权)人:杭州云徙科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。