【技术实现步骤摘要】
数据求交方法及装置、设备和介质
[0001]本公开涉及联邦学习
,具体涉及一种数据求交方法及装置
、
电子设备
、
计算机可读存储介质和计算机程序产品
。
技术介绍
[0002]联邦学习
(Federated Learning)
,又名联合学习或联盟学习,其旨在使得多个参与方在满足用户隐私保护
、
数据安全和政府法规的要求下,进行数据使用和机器学习建模
。
[0003]在联邦学习中,经常需要确定多个参与方之间所共有的数据,例如,多个网络服务供应商所共有的用户的信息
。
通常,为了在各个参与方不共享数据的基础上确定其所共有的数据,可以在联邦学习系统中进行隐私求交运算
。
即,允许持有各自数据集合的两方执行双方集合的交集运算,使得一方或两方能够得到交集结果,但是双方都无法获知交集以外的对方集合数据的任何信息
。
[0004]但是,现有密码学实现中,隐私求交运算的计算量和通信量都较大,占用较 ...
【技术保护点】
【技术特征摘要】
1.
一种数据求交方法,所述方法应用于联邦学习任务中的接收方,所述联邦学习任务还包括与所述接收方通信连接的发送方,所述方法包括:对所述接收方的多条第一未加密信息进行编码,以生成多条第一编码向量;响应于接收到来自所述发送方的多条第二编码向量,基于所述多条第一编码向量与所述多条第二编码向量的相似度,筛选出至少一个目标向量对,其中,所述多条第二编码向量为基于所述发送方的多条第二未加密信息而生成的,每个目标向量对中的第一编码向量与第二编码向量的相似度大于或等于预设阈值;基于所述至少一个目标向量对,生成第一求交结果;基于所述第一求交结果,对所述多条第一未加密信息和多条第二未加密信息两者中的未包括在所述第一求交结果中的未加密信息进行加密求交处理,以得到第二求交结果;以及基于所述第一求交结果和所述第二求交结果,确定目标求交结果,其中,所述目标求交结果为所述多条第一未加密信息和所述多条第二未加密信息中相同用户相应的特征信息
。2.
如权利要求1所述的方法,其中,所述基于所述多条第一编码向量和所述多条第二编码向量的相似度,筛选出至少一个目标向量对包括:对于每条第一编码向量,分别计算该第一编码向量与所对应的第二编码向量集合中的各条第二编码向量的相似度;响应于该第一编码向量与所述第二编码向量的相似度大于或等于预设阈值,将该第一编码向量与所述第二编码向量设置为一对目标向量对,并且,从该第一编码向量所对应的第二编码向量集合中删除所述第二编码向量,以生成下一条第一编码向量所对应的第二编码向量集合;以及响应于该第一编码向量与所述所对应的第二编码向量集合中的各条第二编码向量的相似度均小于预设阈值,将下一条第一编码向量所对应的第二编码向量集合设置为该第一编码向量所对应的第二编码向量集合,其中,所述多条第一编码向量中的第一条第一编码向量所对应的第二编码向量集合为所述多条第二编码向量中的全部向量
。3.
如权利要求1所述的方法,其中,所述基于所述多条第一编码向量与所述多条第二编码向量的相似度,筛选出至少一个目标向量对包括:对于每条第一编码向量,分别计算该第一编码向量与所对应的第二编码向量集合中的各条第二编码向量的相似度;根据该第一编码向量与所对应的第二编码向量集合中的各条第二编码向量的相似度,对所述所对应的第二编码向量集合中的各条第二编码向量进行降序排序;响应于该第一编码向量与所述所对应的第二编码向量集合中的第一条第二编码向量的相似度大于或等于预设阈值,将该第一编码向量与所述第一条第二编码向量设置为一对目标向量对;以及将下一条第一编码向量所对应的第二编码向量集合设置为该第一编码向量所对应的第二编码向量集合中的从第二条到最后一条的第二编码向量,其中,所述多条第一编码向量中的第一条第一编码向量所对应的第二编码向量集合为所述第二编码向量中的全部向量
。
4.
如权利要求1所述的方法,其中,所述对所述多条第一未加密信息和多条第二未加密信息两者中的未包括在所述第一求交结果中的未加密信息进行加密求交处理包括:将所述至少一个目标向量对中的第二编码向量发送到所述发送方;对所述多条第一未加密信息中的未包括在所述第一求交结果中的第一未加密信息进行加密运算,以生成第一加密信息;响应于接收到来自所述发送方的第二加密信息,对所述第一加密信息和所述第二加密信息进行求交运算,以得到加密求交结果,其中,所述第二加密信息为基于所述多条第二未加密信息中的未包括在所述第一求交结果中的第二未加密信息而生成的;以及对所述加密求交结果进行解密,以得到所述第二求交结果
。5.
如权利要求1所述的方法,其中,所述多条第一未加密信息与所述多条第一编码向量一一对应,并且,所述基于所述至少一个目标向量对,生成第一求交结果包括:筛选出对应于所述至少一个目标向量对中的第一编码向量的第一未加密信息,作为所述第一求交结果
。6.
如权利要求5所述的方法,其中,所述对所述接收方的多条第一未加密信息进行编码包括:对于每条第一未加密信息,响应于确定该第一未加密信息包括字符部分,基于该第一未加密信息的字符部分,生成该第一未加密信息所对应的第一编码向量所包括的一个或多个字符分量;和
/
或,响应于确定该第一未加密信息包括数字部分,基于该第一未加密信息的数字部分,生成该第一未加密信息所对应的第一编码向量所包括的一个或多个数字分量
。7.
如权利要求6所述的方法,其中,所述字符分量包括字符数分量和字符内容分量,并且所述基于该第一未加密信息的字符部分,生成该第一未加密信息所对应的第一编码向量的一个或多个字符分量包括:对该第一未加密信息的字符部分进行去重处理,以生成该第一未加密信息的非重复字符部分;计算所述非重复字符部分的字符数,作为该第一未加密信息所对应的第一编码向量的字符数分量;以及基于预设的字符内容转换规则,对所述非重复字符部分进行转换,以生成该第一未加密信息所对应的第一编码向量的字符内容分量
。8.
如权利要求6所述的方法,其中,所述数字分量包括数字长度分量
、
数字内容分量和数字数分量,并且所述基于该第一未加密信息的数字部分,生成该第一未加密信息所对应的第一编码向量的一个或多个数字分量包括:根据该第一未加密信息的数字部分的长度,确定该第一未加密信息所对应的第一编码向量的数字长度分量;对该第一未加密信息的数字部分进行去重处理,以生成该第一未加密信息的非重复数字部分;基于该第一未加密信息的非重复数字部分,生成该第一未加密信息所对应的第一编码向量的数字内容分量;以及计算所述非重复数字部分的数字数,作为该第一未加密信息所对应的第一编码向量的
数字数分量
。9.
如权利要求1‑8中任一项所述的方法,其中,所述多条第一编码向量与所述多条第二编码向量的相似度包括多条第一编码向量与所述多条第二编码向量的相似度之间的余弦相似度
。10.
如权利要求1‑8中任一项所述的方法,其中,所述对多条第一未加密信息中的未包括在所述第一求交结果中的第一未加密信息进行加密运算包括:对于每条第一未加密信息,基于该第一未加密信息的长度或第一未加密信息的数字部分的长度,生成对应于该第一未加密信息的混淆数据;以及对于该第一未加密信息和对应于该第一未加密信息的混淆数据进行加密运算,以生成对应于该第一未加密信息的第一加密信息
。11.
如权利要求1‑8中任一项所述的方法,还包括:将所述目标求交结果发送到所述发送方
。12.
一种数据求交方法,所述方法应用于联邦学习任务中的发送方,所述联邦学习任务还包括与所述发送方通信连接的接收方,所述方法包括:对所述发送方的多条第二未加密信息进行编码,以生成多条第二编码向量;将所述多条第二编码向量发送到所述接收方,以使得所述接收方执行:基于多条第一编码向量与所述多条第二编码向量的相似度,筛选出至少一个目标向量对,其中,所述多条第一编码向量为基于所述接收方的多条第一未加密信息而生成的,每个目标向量对中的第一编码向量与第二编码向量的相似度大于或等于预设阈值;基于所述至少一个目标向量对,生成第一求交结果;基于所述第一...
【专利技术属性】
技术研发人员:尹瑞程,
申请(专利权)人:胜斗士上海科技技术发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。