多重用户身份融合方法、装置、设备及存储介质制造方法及图纸

技术编号:22755084 阅读:34 留言:0更新日期:2019-12-07 03:58
本申请公开了一种多重用户身份融合方法、装置、设备及存储介质,涉及大数据技术领域。具体实现方案为:获取用户身份数据,该用户身份数据具有至少两个身份特征;根据用户身份数据具有的至少两个身份特征,构建图谱网络,该图谱网络包括:表征身份特征的节点和表征身份特征的关联关系的连接边;根据该图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,该身份群组包括:多个身份特征。该技术方案通过图谱网络的形式将用户身份数据具有的身份特征关联起来,不仅能够准确的确定出同一用户的多个身份特征对应的身份群组,而且其可以应用于任何场景,避免了使用范围受限的问题。

Multi user identity fusion method, device, device and storage medium

The application discloses a multi-user identity fusion method, device, device and storage medium, and relates to the technical field of big data. The specific implementation scheme is as follows: obtain the user identity data, which has at least two identity features; build a map network according to at least two identity features of the user identity data, which includes: nodes representing identity features and connection edges representing association relations of identity features; according to the connection relations and nodes between nodes in the map network And the connection relationship between the connection edge to determine the identity group of the same user, which includes: multiple identity characteristics. The scheme not only can accurately identify the identity groups corresponding to multiple identity features of the same user, but also can be applied to any scene, avoiding the problem of limited use range.

【技术实现步骤摘要】
多重用户身份融合方法、装置、设备及存储介质
本申请涉及计算机
,尤其涉及一种大数据技术中的多重用户身份融合方法、装置、设备及存储介质。
技术介绍
在互联网普及的大环境下,将虚拟用户身份(例如,设备ID,网络ID等)和真实用户身份(例如,身份证号、手机号等身份信息、车产、房产等用户资产信息)相关联,可以从不同的表现载体中还原人的完整行为,从而创造巨大的产品商业价值。现有技术中,多重身份融合的方案主要可以基于预设的规则,将满足同一规则的多个不同用户身份确定为属于同一用户,并将该用户的多个用户身份进行融合,使其相互关联。然而,虽然这种融合方法归属判断的准确率高,但是由于使用的规则是人为设定的,无法应用于复杂的场景,使用范围受限。
技术实现思路
本申请实施例提供一种多重用户身份融合方法、装置、设备及存储介质,用于解决现有融合方法无法应用于复杂的场景,使用范围受限的问题。第一方面,本申请提供一种多重用户身份融合的方法,包括:获取用户身份数据,所述用户身份数据具有至少两个身份特征;根据所述用户身份数据具有的至少两个身份特征,构建图谱网络,所述图谱网络包括:表征身份特征的节点和表征身份特征的关联关系的连接边;根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,所述身份群组包括:多个身份特征。在本实施例中,通过图谱网络的形式将用户身份数据具有的身份特征关联起来,不仅能够准确的确定出同一用户的多个身份特征对应的身份群组,而且其可以应用于任何场景,避免了使用范围受限的问题。在第一方面的一种可能设计中,所述获取用户身份数据,包括:获取预设的配置信息,所述配置信息包括:数据源类型、数据源路径、提取方式和提取周期;根据所述数据源路径、所述提取方式和所述提取周期,从所述数据源类型对应数据源中提取所述用户身份数据。在本实施例中,用户数据提取是基于预设的配置信息中的各信息依赖关系实现的,能够确保数据提取任务可以稳定有序的执行。可选的,所述配置信息还包括:字段映射关系;所述方法还包括:根据所述字段映射关系,依次对获取到的所述用户身份数据进行解析,提取所述用户身份数据具有的至少两个身份特征;在第一方面的另一种可能设计中,所述根据所述用户身份数据具有的至少两个身份特征,构建图谱网络,包括:以所述用户身份数据中的每个身份特征作为图谱网络的节点,以所述用户身份数据中的每两个身份特征的关联关系作为图谱网络的连接边,构建所述图谱网络,所述图谱网络中每个节点和每条连接边分别具有属性信息。通过上述的方案可知,针对不同的数据可能来源不同系统的问题,通过预设的配置信息实现了用户身份数据的提取、用户身份数据中身份特征的识别和提取,并且基于提取的身份特征实现了图谱网络的构建,自动化程度高,成本低。在第一方面的再一种可能设计中,所述根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,包括:根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定所述图谱网络中相邻节点间的连接次数;基于所述图谱网络中相邻节点间的连接次数和预设的次数阈值,确定出第一连接关系和第二连接关系,所述第一连接关系为相邻节点间的连接次数大于所述次数阈值的连接关系,所述第二连接关系为相邻节点间的连接次数小于或等于所述次数阈值的连接关系;根据所述第一连接关系、所述第二连接关系,以目标节点为起点,依次向外遍历所述图谱网络的节点,确定出所述目标节点对应用户的身份群组。在本实施例中,通过基于确定的连接关系确定目标节点对应用户的身份群组,得到的结果准确率高。在第一方面的又一种可能设计中,所述根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,包括:根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系以及各节点具有的属性信息,确定出节点间的关联关系;基于所述节点间的关联关系,对所述图谱网络中的节点进行聚合,确定同一用户的身份群组。在本实施例中,通过基于节点间关联关系且通过聚合的方法,得到的同一用户的身份群组,可以保证较高的融合率。在第一方面的又一种可能设计中,所述方法还包括:根据同一用户的身份群组,确定所述身份群组中与目标身份特征具有关联关系的多个用户身份特征,所述目标身份特征为所述身份群组包括的用户身份特征中的任意一个;向所述多个用户身份特征中的至少一个身份特征推送消息。在本实施例中,通过确定身份群组中与目标身份特征具有关联关系的多个用户身份特征,再有针对性的向用户推送消息,提高了产品商业价值。可选的,所述根据同一用户的身份群组,确定所述身份群组中与目标身份特征具有关联关系的多个用户身份特征,包括:对同一用户的身份群组中的节点进行检索、遍历和筛选处理,确定所述身份群组中与目标身份特征具有关联关系的多个用户身份特征。在本实施例中,通过上述节点身份检索、节点身份的广度遍历和节点身份特征的筛选等过程可快速推导获得与目标身份特征对应顶点有连通关系的顶点。在第一方面的又一种可能设计中,所述方法还包括:以图数据库的形式,存储所述图谱网络中节点与连接边的对应关系;所述图数据库包括:点存储、连接边存储和属性存储;所述点存储包括:节点主键、节点拥有的属性信息和节点连接的连接边;所述连接边存储包括:连接边主键、连接边所连接的起始点和终止点,以及连接边所携带的属性信息;所述属性存储包括:属性主键、属性所表示的含义,以及属性表示的具体内容。在本实施例中,基于用户身份数据具有的身份特征之间的关联关系及身份特征共同出现的记录刻画成图数据库的顶点和连接边,使得用户身份数据可以通过图论算法解决数据融合问题。可选的,所述节点主键、所述连接边主键、所述属性主键均采用索引的方式存储。在本实施例中,通过对节点主键、连接边主键和属性主键构建索引,可以提高检索和数据管理的便利性。第二方面,本申请提供一种多重用户身份融合的装置,包括:获取模块,用于获取用户身份数据,所述用户身份数据具有至少两个身份特征;处理模块,用于根据所述用户身份数据具有的至少两个身份特征,构建图谱网络,所述图谱网络包括:表征身份特征的节点和表征身份特征的关联关系的连接边;确定模块,用于根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,所述身份群组包括:多个身份特征。在第二方面的一种可能设计中,所述获取模块,具体用于获取预设的配置信息,所述配置信息包括:数据源类型、数据源路径、提取方式和提取周期;根据所述数据源路径、所述提取方式和所述提取周期,从所述数据源类型对应数据源中提取所述用户身份数据。可选的,所述配置信息还包括:字段映射关系;...

【技术保护点】
1.一种多重用户身份融合的方法,其特征在于,包括:/n获取用户身份数据,所述用户身份数据具有至少两个身份特征;/n根据所述用户身份数据具有的至少两个身份特征,构建图谱网络,所述图谱网络包括:表征身份特征的节点和表征身份特征的关联关系的连接边;/n根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,所述身份群组包括:多个身份特征。/n

【技术特征摘要】
1.一种多重用户身份融合的方法,其特征在于,包括:
获取用户身份数据,所述用户身份数据具有至少两个身份特征;
根据所述用户身份数据具有的至少两个身份特征,构建图谱网络,所述图谱网络包括:表征身份特征的节点和表征身份特征的关联关系的连接边;
根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,所述身份群组包括:多个身份特征。


2.根据权利要求1所述的方法,其特征在于,所述获取用户身份数据,包括:
获取预设的配置信息,所述配置信息包括:数据源类型、数据源路径、提取方式和提取周期;
根据所述数据源路径、所述提取方式和所述提取周期,从所述数据源类型对应数据源中提取所述用户身份数据。


3.根据权利要求2所述的方法,其特征在于,所述配置信息还包括:字段映射关系;
所述方法还包括:
根据所述字段映射关系,依次对获取到的所述用户身份数据进行解析,提取所述用户身份数据具有的至少两个身份特征。


4.根据权利要求1所述的方法,其特征在于,所述根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,包括:
根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定所述图谱网络中相邻节点间的连接次数;
基于所述图谱网络中相邻节点间的连接次数和预设的次数阈值,确定出第一连接关系和第二连接关系,所述第一连接关系为相邻节点间的连接次数大于所述次数阈值的连接关系,所述第二连接关系为相邻节点间的连接次数小于或等于所述次数阈值的连接关系;
根据所述第一连接关系、所述第二连接关系,以目标节点为起点,依次向外遍历所述图谱网络的节点,确定出所述目标节点对应用户的身份群组。


5.根据权利要求1所述的方法,其特征在于,所述根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系,确定同一用户的身份群组,包括:
根据所述图谱网络中节点之间的连接关系、节点和连接边之间的连接关系以及各节点具有的属性信息,确定出节点间的关联关系;
基于所述节点间的关联关系,对所述图谱网络中的节点进行聚合,确定同一用户的身份群组。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
根据同一用户的身份群组,确定所述身份群组中与目标身份特征具有关联关系的多个用户身份特征,所述目...

【专利技术属性】
技术研发人员:张阳杨双全刘畅
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1