【技术实现步骤摘要】
数据关联方法、电子设备及介质
本专利技术涉及数据处理
,尤其涉及一种数据关联方法、电子设备及介质。
技术介绍
用户数据通常遍布于多方数据源中,在很多数据应用场景中,例如用户画像的建立、个性化推荐、报表计算等,往往需要整理、合并多方数据源的用户数据,将来自不同数据源的同一用户的数据进行关联。但是,当用户数据量过于庞大时,由于算力的限制,传统的基于单机的数据关联算法会出现计算困难,计算效率低,稳定性差,如果针对单机算力进行扩展升级,会大大增加边际成本。因此,如何提供一种低成本、快速、稳定的数据关联技术,成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种数据关联方法、电子设备及介质,提高了数据关联过程的速度和稳定性,且成本低。根据本专利技术第一方面,提供了一种数据关联方法,包括:从多个数据源中获取多个数据集合进行合并去重,得到待处理的数据集合,其中,每一所述数据集合中包括多个数据,以及数据之间的关联关系信息;将所述待处理的数据集合中的每一数据赋予一个id, ...
【技术保护点】
1.一种数据关联方法,其特征在于,包括:/n从多个数据库中获取多条记录,每条所述记录包括多个具有关联关系的数据;/n逐条读取每一所述记录中的每一数据,并遍历所有已读取的数据,判断已读取的数据中是否存在与当前所读取的数据相同的数据,若存在,则为当前所读取的数据赋予已读取的相同数据的id,否则,为当前所读取的数据赋予当前最大id;/n以所有所述数据为顶点,遍历所有所述数据的id,将具有相同id的数据的顶点相连接,并合并为一个顶点,再以所述关联关系为边,建立关联图;/n基于所述关联图进行数据关联。/n
【技术特征摘要】
1.一种数据关联方法,其特征在于,包括:
从多个数据库中获取多条记录,每条所述记录包括多个具有关联关系的数据;
逐条读取每一所述记录中的每一数据,并遍历所有已读取的数据,判断已读取的数据中是否存在与当前所读取的数据相同的数据,若存在,则为当前所读取的数据赋予已读取的相同数据的id,否则,为当前所读取的数据赋予当前最大id;
以所有所述数据为顶点,遍历所有所述数据的id,将具有相同id的数据的顶点相连接,并合并为一个顶点,再以所述关联关系为边,建立关联图;
基于所述关联图进行数据关联。
2.根据权利要求1所述的方法,其特征在于,
所述以所述关联关系为边,建立关联图,包括:
逐个读取所述数据和与该数据具有关联关系的数据,在任意两个具有关联关系的数据的顶点之间建立边,直至每一与其他数据具有关联关系的数据的顶点,至少连接有一条边,得到所述关联图。
3.根据权利要求2所述的方法,其特征在于,
所述以所述关联关系为边,建立关联图,包括:
在每一所述记录对应的具有关联关系的数据中,选择一个目标数据的顶点作为该记录的中心顶点,遍历该记录对应的所有数据的顶点,将所有与该记录的目标数据具有关联关系的数据的顶点的id更新为该记录的中心顶点id并连接至该记录的中心顶点,生成该记录对应的子关联图,遍历所有所述记录,直至生成所有所述记录对应的子关联图,得到所述关联图。
4.根据权利要求2所述的方法,其特征在于,
所述以所述关联关系为边,建立关联图,包括:
在每一所述记录对应的具有关联关系的数据中,选择一个目标数据的顶点作为该记录的起始顶点,遍历该记录对应的所有数据的顶点,将所有与该记录的目标数据具有关联关系的数据的顶点的i...
【专利技术属性】
技术研发人员:蔡文渊,张坤坤,岳彤,
申请(专利权)人:上海宏路数据技术股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。