一种基于大数据技术的用户ID关联方法技术

技术编号:23604851 阅读:87 留言:0更新日期:2020-03-28 05:54
本发明专利技术公开一种基于大数据技术的用户ID关联方法,包括以下步骤:步骤A,读取配置信息;步骤B,根据配置信息,从数据仓储拉取数据,构建顶点和边;步骤C,通过SparkGraphx将图的顶点和图的边的重复项合并;步骤D,对图的每个顶点有向的搜索N度关系并收集起来;步骤E,根据上一步收集到的每个图顶点的N度关系结点;步骤F,将上一步收集到的歧义结点,根据已配置的歧义规则,进行置信度计算,完成歧义顶点的归属判定;步骤G,根据存储配置,最终将输出结果按照规定的格式存储到指定数据库中。本发明专利技术提供的用户ID关联方法具备挖掘数据更完整,更准确的优点。

A user ID association method based on big data technology

【技术实现步骤摘要】
一种基于大数据技术的用户ID关联方法
本专利技术涉及用户ID识别领域,尤其涉及一种基于大数据技术的用户ID关联方法。
技术介绍
随着互联网发展,集团业务可触点渠道越来越多,用户可通过不同身份访问企业业务,与企业发生交易消费行为,导致企业可收集大量用户身份信息。但是,用户身份信息过载难以高效稳定从多渠道识别唯一用户,信息容易疏忽或者丢失,且处理过程复杂,效率低,导致信息缺漏,无法全面掌握用户真实情况,加大用户运营难度,此问题愈发凸显。因此,需要通过用户ID关联的方法去解决用户身份繁多的问题。而在现有技术中,用户ID关联方法有如下几种:1、将业务规则,转化为对应的SQL语句,关联和映射多数据集的主键,完成用户ID关联。2、将数据库数据导出并转化为SparkDataFrame,利用SparkGraphx进行图计算,根据图的连接关系,完成用户ID关联。3、基于用户ID历史日志确定不同的用户ID之间的关联特征,建立用户ID映射关系列表,计算该用户ID和对应的其他类型的用户ID之间的置信度,并以此判断不同数据源的用户ID是否本文档来自技高网...

【技术保护点】
1.一种基于大数据技术的用户ID关联方法,其特征在于,所述方法包括以下步骤:/n步骤A,读取配置信息,所述配置信息包括包括数据源表配置,数据表和映射字段配置,结果存储配置,歧义规则;/n步骤B,根据配置信息,从数据仓储拉取数据,构建顶点和边;/n步骤C,通过SparkGraphx将图的顶点和图的边的重复项合并,并根据图的边将图的顶点连接起来,产生若干关联图;/n步骤D,对图的每个顶点有向的搜索N度关系并收集起来,通过规则判断这些顶点的关系集内的节点是否存在歧义,如有则标记为歧义节点;/n步骤E,根据上一步收集到的每个图顶点的N度关系结点,通过规则判断低级别的顶点是否存在多重归属关系,如果有则标...

【技术特征摘要】
1.一种基于大数据技术的用户ID关联方法,其特征在于,所述方法包括以下步骤:
步骤A,读取配置信息,所述配置信息包括包括数据源表配置,数据表和映射字段配置,结果存储配置,歧义规则;
步骤B,根据配置信息,从数据仓储拉取数据,构建顶点和边;
步骤C,通过SparkGraphx将图的顶点和图的边的重复项合并,并根据图的边将图的顶点连接起来,产生若干关联图;
步骤D,对图的每个顶点有向的搜索N度关系并收集起来,通过规则判断这些顶点的关系集内的节点是否存在歧义,如有则标记为歧义节点;
步骤E,根据上一步收集到的每个图顶点的N度关系结点,通过规则判断低级别的顶点是否存在多重归属关系,如果有则标记;
步骤F,将上一步收集到的歧义结点,根据已配置的歧...

【专利技术属性】
技术研发人员:李元佳陈新宇李柱新李剑伟
申请(专利权)人:杭州云徙科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1