样本标识的对齐方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39315904 阅读:11 留言:0更新日期:2023-11-12 15:59
本申请提供了一种样本标识的对齐方法、装置、电子设备及存储介质;方法包括:针对多个第一数据样本,分别对每个第一数据样本的第一样本标识进行加密,得到多个第一加密标识;生成多个第一加密标识对应的索引组,索引组中包括至少一个子索引组,子索引组中的索引用于区分相同的第一加密标识;将多个第一加密标识以及索引组发送至接收方;第一加密标识以及索引组,用于供接收方基于索引组,从多个第一加密标识以及多个第二加密标识中选取得到目标样本标识;接收接收方发送的目标样本标识,并根据目标样本标识以及多个第一加密标识,确定对齐后的样本标识。通过本申请,能够提高样本对齐的速度。齐的速度。齐的速度。

【技术实现步骤摘要】
样本标识的对齐方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种样本标识的对齐方法、装置、电子设备及存储介质。

技术介绍

[0002]安全多方计算方法大体上可以分为两类,一类是基于噪音的计算方法,以差分隐私(Differential Privacy)为代表;另一类是基于密码学的计算方法,将原数据编码或者加密,使得人们很难从加密后的数据还原出原始数据,其中,不经意传输(OT,Oblivious Transfer)算法较为常见。
[0003]但是当多方的数据中存在重复求交key(主键)的时候,使用上述方法进行样本对齐的速度降低。

技术实现思路

[0004]本申请实施例提供一种样本标识的对齐方法、装置、电子设备及存储介质,能够提高样本对齐的速度。
[0005]本申请实施例的技术方案是这样实现的:本申请实施例提供一种样本标识的对齐方法,所述方法包括:针对多个第一数据样本,分别对每个所述第一数据样本的第一样本标识进行加密,得到多个第一加密标识;当所述多个第一加密标识中存在相同的第一加密标识时,生成多个所述第一加密标识对应的索引组,所述索引组中包括至少一个子索引组,所述子索引组中的索引用于区分相同的第一加密标识;将所述多个第一加密标识以及所述索引组发送至接收方;所述第一加密标识以及所述索引组,用于供所述接收方基于所述索引组,从所述多个第一加密标识以及多个第二加密标识中选取得到目标样本标识;其中,相同的所述目标样本标识所对应的索引相同,所述第二加密标识为,对所述接收方的第二样本标识进行加密所得到;接收所述接收方发送的所述目标样本标识,并根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识。
[0006]本申请实施例提供一种样本标识的对齐方法,所述方法包括:针对多个第二数据样本,分别对每个所述第二数据样本的第二样本标识进行加密,得到多个第二加密标识;接收发送方发送的多个第一加密标识以及索引组;所述第一加密标识为,对所述发送方的第一样本标识进行加密所得到;当所述多个第一加密标识中存在相同的第一加密标识时,所述索引组包括至少一个子索引组,所述子索引组中的索引用于区分相同的第一加密标识;基于所述索引组,从所述多个第一加密标识以及所述多个第二加密标识中选取得到目标样本标识;其中,相同的所述目标样本标识所对应的索引相同;向所述发送方发送所述目标样本标识;所述目标样本标识,用于供所述发送方根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识。
[0007]本申请实施例提供一种样本标识的对齐装置,包括:第一加密模块,用于针对多个
第一数据样本,分别对每个所述第一数据样本的第一样本标识进行加密,得到多个第一加密标识;索引生成模块,用于当所述多个第一加密标识中存在相同的第一加密标识时,生成多个所述第一加密标识对应的索引组,所述索引组中包括至少一个子索引组,所述子索引组中的索引用于区分相同的第加密标识;第一标识发送模块,用于将所述多个第一加密标识以及所述索引组发送至接收方;所述第一加密标识以及所述索引组,用于供所述接收方基于所述索引组,从所述多个第一加密标识以及多个第二加密标识中选取得到目标样本标识;其中,相同的所述目标样本标识所对应的索引相同,所述第二加密标识为,对所述接收方的第二样本标识进行加密所得到;样本标识确定模块,用于接收所述接收方发送的所述目标样本标识,并根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识。
[0008]上述方案中,所述索引生成模块,还用于对多个所述第一加密标识进行标识组划分,得到第一加密标识组及第二加密标识组;其中,所述第一加密标识组中的所述第一加密标识相同,所述第二加密标识组中的所述第一加密标识互不相同;分别为所述第一加密标识组中的第一加密标识以及所述第二加密标识组中的第一加密标识,添加对应的索引,得到多个所述第一加密标识对应的索引组。
[0009]上述方案中,所述索引生成模块,还用于为所述第一加密标识组中的每个所述第一加密标识添加不同的索引,得到所述第一加密标识组对应的子索引组;为所述第二加密标识组中的每个所述第一加密标识添加相同的索引;根据每个所述第一加密标识组对应的所述子索引组,以及每个所述第二加密标识组中的索引,构建得到多个所述第一加密标识对应的索引组。
[0010]上述方案中,所述索引生成模块,还用于对所述第一加密标识组中的各所述第一加密标识进行排序,得到第一加密标识序列;基于所述第一加密标识序列中各所述第一加密标识的顺序,为各所述第一加密标识依次添加从小到大排列或从大到小排列的索引,得到所述第一加密标识组对应的子索引组。
[0011]上述方案中,所述索引生成模块,还用于为所述第一加密标识组中的每个所述第一加密标识,随机添加不同的索引,得到所述第一加密标识组对应的子索引组。
[0012]上述方案中,所述索引生成模块,还用于为每个所述第一加密标识添加索引;其中,相同的所述第一加密标识对应的第一索引不同;所述多个第一加密标识中除去相同的所述第一加密标识以外的其他第一加密标识对应的第二索引相同;所述第二索引与多个所述第一索引中的至少一个所述第一索引相同;根据所述第一索引和所述第二索引,构建得到多个所述第一加密标识对应的索引组。
[0013]上述方案中,所述索引生成模块,还用于为相同的第一加密标识添加不同的索引,得到相应的子索引组;根据至少一个所述子索引组,生成多个所述第一加密标识对应的索引组。
[0014]上述方案中,所述样本标识确定模块,还用于对所述目标样本标识以及所述多个第一加密标识进行求交,得到对齐后的样本标识。
[0015]本申请实施例提供一种样本标识的对齐装置,包括:第二加密模块,用于针对多个第二数据样本,分别对每个所述第二数据样本的第二样本标识进行加密,得到多个第二加密标识;索引接收模块,用于接收发送方发送的多个第一加密标识以及索引组;所述第一加
密标识为,对所述发送方的第一样本标识进行加密所得到;当所述多个第一加密标识中存在相同的第一加密标识时,所述索引组包括至少一个子索引组,所述子索引组中的索引用于区分相同的第一加密标识;标识选取模块,用于基于所述索引组,从所述多个第一加密标识以及所述多个第二加密标识中选取得到目标样本标识;其中,相同的所述目标样本标识所对应的索引相同;第二标识发送模块,用于向所述发送方发送所述目标样本标识;所述目标样本标识,用于供所述发送方根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识。
[0016]上述方案中,所述标识选取模块,还用于对所述多个第一加密标识以及所述多个第二加密标识进行求交,得到对齐后的样本标识;所述样本标识的索引与所述样本标识对应的所述第一加密标识的索引相同;基于所述索引组,对所述样本标识进行过滤,得到至少一个目标样本标识。
[0017]上述方案中,所述标识选取模块,还用于在所述子索引组中的各所述索引为基于初始数字从小到大依次排列的情况下,从所述样本标识中过滤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本标识的对齐方法,其特征在于,所述方法包括:针对多个第一数据样本,分别对每个所述第一数据样本的第一样本标识进行加密,得到多个第一加密标识;当所述多个第一加密标识中存在相同的第一加密标识时,生成多个所述第一加密标识对应的索引组,所述索引组中包括至少一个子索引组,所述子索引组中的索引用于区分相同的第一加密标识;将所述多个第一加密标识以及所述索引组发送至接收方;所述第一加密标识以及所述索引组,用于供所述接收方基于所述索引组,从所述多个第一加密标识以及多个第二加密标识中选取得到目标样本标识;其中,相同的所述目标样本标识所对应的索引相同,所述第二加密标识为,对所述接收方的第二样本标识进行加密所得到;接收所述接收方发送的所述目标样本标识,并根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识。2.如权利要求1所述的方法,其特征在于,所述生成多个所述第一加密标识对应的索引组,包括:对多个所述第一加密标识进行标识组划分,得到第一加密标识组及第二加密标识组;其中,所述第一加密标识组中的所述第一加密标识相同,所述第二加密标识组中的所述第一加密标识互不相同;分别为所述第一加密标识组中的第一加密标识以及所述第二加密标识组中的第一加密标识,添加对应的索引,得到多个所述第一加密标识对应的索引组。3.如权利要求2所述的方法,其特征在于,所述分别为所述第一加密标识组中的第一加密标识以及所述第二加密标识组中的第一加密标识,添加对应的索引,得到多个所述第一加密标识对应的索引组,包括:为所述第一加密标识组中的每个所述第一加密标识添加不同的索引,得到所述第一加密标识组对应的子索引组;为所述第二加密标识组中的每个所述第一加密标识添加相同的索引;根据每个所述第一加密标识组对应的所述子索引组,以及每个所述第二加密标识组中的索引,构建得到多个所述第一加密标识对应的索引组。4.如权利要求3所述的方法,其特征在于,所述为所述第一加密标识组中的每个所述第一加密标识添加不同的索引,得到所述第一加密标识组对应的子索引组,包括:对所述第一加密标识组中的各所述第一加密标识进行排序,得到第一加密标识序列;基于所述第一加密标识序列中各所述第一加密标识的顺序,为各所述第一加密标识依次添加从小到大排列或从大到小排列的索引,得到所述第一加密标识组对应的子索引组。5.如权利要求3所述的方法,其特征在于,所述为所述第一加密标识组中的每个所述第一加密标识添加不同的索引,得到所述第一加密标识组对应的子索引组,包括:为所述第一加密标识组中的每个所述第一加密标识,随机添加不同的索引,得到所述第一加密标识组对应的子索引组。6.如权利要求1所述的方法,其特征在于,所述生成多个所述第一加密标识对应的索引组,包括:
为每个所述第一加密标识添加索引;其中,相同的所述第一加密标识对应的第一索引不同;所述多个第一加密标识中除去相同的所述第一加密标识以外的其他第一加密标识对应的第二索引相同;所述第二索引与多个所述第一索引中的至少一个所述第一索引相同;根据所述第一索引和所述第二索引,构建得到多个所述第一加密标识对应的索引组。7.如权利要求1所述的方法,其特征在于,所述生成多个所述第一加密标识对应的索引组,包括:为相同的第一加密标识添加不同的索引,得到相应的子索引组;根据至少一个所述子索引组,生成多个所述第一加密标识对应的索引组。8.如权利要求1所述的方法,其特征在于,所述根据所述目标样本标识以及所述多个第一加密标识,确定对齐后的样本标识,包括:对所述目标样本标识以及所述多个第一加密标识进行求交,得到对齐后的样本标识。9.一种样本标识的对齐方法,其特征在于,所述方法包括:针对多个第二数据样本,分别对每个所述第二数据样本的第二样本标识进行加密,得到多个第二加密标识;接收发送方发送的多个第一加密标识以及索引组;所述第一加密标识为,对所述发送方的第一样本标识进行加密所得到;当所...

【专利技术属性】
技术研发人员:赵恢强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1