【技术实现步骤摘要】
一种联邦数据采样方法、系统及计算机存储介质
[0001]本专利技术涉及联邦学习
,具体而言,涉及一种联邦数据采样方法、系统及计算机存储介质。
技术介绍
[0002]大数据具有海量数据、价值密度低等特点,将其用于机器学习时,如果全部样本数据都参与,往往会带来计算时间长、软件硬件开销大的问题。所以机器学习有时采用“数据采样”的算法,通过合理的采样算法,将样本全集减小为样本子集,并保证样本子集的联合分布概率不变。这样可以在减小样本数、计算耗时、软硬件消耗的同时,保证机器学习模型的准确性。
[0003]传统的机器学习中的采样常用的是:
[0004](1)等概率采样:随机采样,等距采样,分层采样,聚类采样;
[0005](2)非等概率采样:方便采样,定额采样,判断采样,滚雪球采样;
[0006]但在联邦学习时,数据被不同数据源持有,且为了数据安全,不能将数据明文的传输给其他数据源。这样一个数据源无法拿到全部的数据进行采样,也就无法保证采样的联合分布概率不变。
[0007]针对现有技术中联邦 ...
【技术保护点】
【技术特征摘要】
1.一种联邦数据采样方法,其特征在于,包括:S101,获取参与方的第一用户ID、第一特征,所述第一特征对应多个第一特征值;以及获取发起方的第二用户ID、第二特征,所述第二特征对应多个第二特征值;S102,当判定所述第一特征值和所述第二特征值的数量均小于或等于第一预设阈值,或两者乘积小于或等于第二预设阈值时,将所述第一用户ID、第一特征值与第二用户ID、第二特征值进行基于样本对齐的交叉,得到多个所述第一用户ID与所述第二用户ID之间的第一共同用户ID集;对所述每个第一共同用户ID集分别进行采样,得到多个第一采样用户ID集;S103,当判定所述第一特征值和所述第二特征值的数量均大于所述第一预设阈值或两者乘积大于所述第二预设阈值时,将所述第一用户ID、第一特征值与第二用户ID、第二特征值进行基于样本对齐的联邦聚类,得到多个所述第一用户ID与所述第二用户ID之间的第二共同用户ID集;对所述每个第二共同用户ID集分别进行采样,得到多个第二采样用户ID集;S104,根据发起方的特征标签对所述多个第一采样用户ID集或所述多个第二采样用户ID集进行预设范围内的调整,得到目标用户ID集;S105,将所述目标用户ID集发给所述参与方。2.根据权利要求1所述的方法,其特征在于,所述S102包括:当判定所述第一特征值和所述第二特征值的数量均小于或等于第一预设阈值,或两者乘积小于或等于第二预设阈值时,根据所述多个第一特征值将所述参与方的第一用户ID划分为多个第一用户ID子集,以及根据所述多个第二特征值将所述发起方的第二用户ID划分为多个第二用户ID子集;将所述多个第一用户ID子集和所述多个第二用户ID子集进行基于样本对齐的交叉,得到多个所述第一共同用户ID集;对所述每个第一共同用户ID集分别进行采样,得到多个第一采样用户ID集。3.根据权利要求2所述的方法,其特征在于,所述将所述多个第一用户ID子集和所述多个第二用户ID子集进行基于样本对齐的交叉,得到多个所述第一共同用户ID集包括:对所述多个第二用户ID子集进行第一加密,得到与之对应的多个第二用户ID第一加密子集并发送给所述参与方;分别对所述多个第一用户ID子集、所述多个第二用户ID第一加密子集进行第二加密,得到多个第一用户ID第二加密子集、多个第二用户ID双加密子集并发送给所述发起方;对所述多个第二用户ID双加密子集进行第一加密的解密,得到多个第二用户ID第二加密子集;计算所述多个第一用户ID第二加密子集和所述多个第二用户ID第二加密子集的交集,得到多个所述第一共同用户ID集。4.根据权利要求1所述的方法,其特征在于:所述聚类包括:K
‑
means聚类,DBSCAN聚类,层次聚类,GMM聚类。5.根据权利要求1所述的方法,其特征在于:对所述每个第一共同用户ID集分别进行采样,得到多个第一采样用户ID集包括:对所述每个第一共同用户ID集分别进行等比例采样,得到所述多个第一采样用户ID集;
对所述每个第二共同用户ID集分别进行采样,得到多个第二...
【专利技术属性】
技术研发人员:赵骁飞,赵宁,兰春嘉,
申请(专利权)人:上海零数众合信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。