【技术实现步骤摘要】
数据对齐方法、装置、电子设备和可读存储介质
[0001]本专利技术涉及数据处理
,具体而言,涉及一种数据对齐方法、装置、电子设备和可读存储介质。
技术介绍
[0002]随着数据安全法等相关政策出台,各家企业在进行数据合作的时候,需要以安全合规的方式进行数据对齐。
[0003]目前,业界通过引入隐私计算技术来实现各家企业的数据对齐。由于隐私计算技术比较前沿,企业内部相对保持谨慎,在前期阶段,如果各家企业采用全量数据进行对齐,则需要进行亿级别的数据计算,效率低下,而根据信息安全最小化原则,以某个区域的数据进行对齐,当数据本身具有区域属性的情况下,则会存在区域信息的泄漏风险。
技术实现思路
[0004]基于上述研究,本专利技术提供一种数据对齐方法、装置、电子设备和可读存储介质,避免了区域信息泄露,又可保证数据对齐效率。
[0005]本专利技术的实施例可以通过以下方式实现:
[0006]第一方面,本专利技术实施例提供一种数据对齐方法,所述方法包括:
[0007]获取参与数据对齐的 ...
【技术保护点】
【技术特征摘要】
1.一种数据对齐方法,其特征在于,所述方法包括:获取参与数据对齐的对象数据集;所述对象数据集包括对象数据、所述对象数据所属的第一区域标签以及所述对象数据对应的对象的第二区域标签;根据所述第二区域标签或所述第一区域标签,对所述对象数据集进行划分,得到至少一个目标数据集;每个所述目标数据集具有目标区域标签;所述目标区域标签包括至少一个第二区域标签或包括至少一个第一区域标签;若各所述目标数据集的目标区域标签包括第二区域标签,对各所述目标数据集中第一区域标签与各所述目标数据集对应的目标区域标签未匹配的对象数据进行过滤,若各所述目标数据集的目标区域标签包括第一区域标签,对各所述目标数据集中对应对象的第二区域标签与各所述目标数据集对应的目标区域标签未匹配的对象数据进行过滤;根据过滤后的各所述目标数据集,参与数据对齐。2.根据权利要求1所述的数据对齐方法,其特征在于,所述根据所述第二区域标签或所述第一区域标签,对所述对象数据集进行划分,得到至少一个目标数据集,包括:按照所述第二区域标签或所述第一区域标签,对所述对象数据集中的对象数据进行聚合,得到至少一个初始数据集;每个所述初始数据集对应一个第二区域标签或一个第一区域标签;根据设定数据集数,对各所述初始数据集进行组合,得到至少一个目标数据集,每个所述目标数据集具有目标区域标签,所述目标区域标签包括至少一个第二区域标签或包括至少一个第一区域标签。3.根据权利要求1所述的数据对齐方法,其特征在于,所述根据过滤后的各所述目标数据集,参与数据对齐,包括:根据预设对齐数据量,从过滤后的各所述目标数据集中筛选出目标对象数据,并根据所述目标对象数据参与数据对齐;若达到对齐的数据量未满足所述预设对齐数据量,则根据预设增量,从过滤后的各所述目标数据集剩余的对象数据中选取增量对象数据,将所述增量对象数据增加成为所述目标对象数据;根据增加后的目标对象数据参与数据对齐,若达到对齐的数据量仍未满足所述预设对齐数量,则根据预设增量,从过滤后的各所述目标数据集剩余的对象数据中再次选取增量对象数据,以此重复,直至达到对齐的数据量满足所述预设对齐数量或者过滤后的各所述目标数据集中的对象数据选取完毕。4.根据权利要求1所述的数据对齐方法,其特征在于,所述根据过滤后的各所述目标数据集,参与数据对齐,包括:确定过滤后的各所述目标数据集中的各对象数据的哈希值;根据所述哈希值中的目标字符,确定得到过滤后的各所述目标数据集中的各对象数据的目标字符串;根据过滤后的各所述目标数据集...
【专利技术属性】
技术研发人员:吴进喜,江海龙,任亚坤,吕寒冰,唐俊峰,邓燕辉,张强,陈晓文,冷朋,陈新江,
申请(专利权)人:顺丰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。