【技术实现步骤摘要】
联邦学习系统、联邦学习系统中的特征选择方法及装置
[0001]本申请涉及人工智能领域,具体涉及一种联邦学习系统、联邦学习系统中的特征选择方法及装置。
技术介绍
[0002]在人工智能领域中,为有效地解决数据孤岛问题,可以采用联邦学习技术,多个参与方联合起来进行机器学习模型的训练。在机器学习模型的训练过程中,可以通过特征选择来减少样本所包含的特征,以提高机器学习模型的训练效率。
[0003]现有技术中,联邦学习系统中的特征选择,首先由参与方根据线下沟通确定特征选择的需求,各参与方分别对其所拥有样本进行特征选择。这种线下沟通的方式所进行的特征选择受限于其沟通途径的局限性,对于联邦学习系统中的数据利用率不足,使得联邦过程中的特征选择与实际特征需求的匹配度不高,特征选择的准确率难以满足要求。
技术实现思路
[0004]本申请的一个目的在于提出一种联邦学习系统、联邦学习系统中的特征选择方法及装置,在保证第二参与方所持有第二特征不透露给第一参与方的前提下,将第一参与方用于特征选择的数据源从第一特征拓展为了包含有第 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习系统,其特征在于,所述系统至少包括第一参与方和第二参与方,所述第一参与方持有样本的第一特征以及样本的样本标签,所述第二参与方持有样本的第二特征,所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集,并分别从所述联合样本集中选取相同的一个样本作为中心样本R;所述第一参与方配置为:基于所述第一特征计算得到所述联合样本集中各样本分别与所述中心样本R之间的第一距离,并获取所述第二参与方基于所述第二特征计算得到的所述联合样本集中各样本分别与所述中心样本R之间的第二距离;基于所述第二距离对所述第一距离进行更新,得到所述联合样本集中各样本分别与所述中心样本R之间的综合距离;基于所述样本标签以及所述综合距离,从与所述中心样本R标签相同的样本中筛选出综合距离最近的k个样本作为第一同类样本,以及从与所述中心样本R标签不同的各类样本中分别筛选出综合距离最近的k个样本作为第一异类样本,其中,k为大于0的自然数;基于所述第一同类样本与所述中心样本R在各第一特征上的特征距离,以及所述第一异类样本与所述中心样本R在各第一特征上的特征距离,对各第一特征的权重进行更新,并根据更新后的权重对第一特征进行筛选。2.根据权利要求1所述的系统,其特征在于,所述第一参与方配置为:与所述第二参与方预先约定一个随机数种子,使得所述第一参与方以及所述第二参与方每次根据所述随机数种子进行采样,分别选取出所述联合样本集。3.根据权利要求1所述的系统,其特征在于,所述第一参与方配置为:从所述联合样本集中随机选取一个样本作为中心样本R,并将所述中心样本R的标识发送给所述第二参与方,以使得所述第二参与方根据所述标识选取所述中心样本R。4.根据权利要求1所述的系统,其特征在于,所述第一参与方配置为:计算所述第一距离与所述第二距离之间的向量距离,将所述向量距离作为更新后的第一距离,并将所述更新后的第一距离作为对应样本与所述中心样本R之间的综合距离。5.根据权利要求1
‑
4任一项所述的系统,其特征在于,所述第一参与方配置为:筛选得到更新后权重大于预设权重阈值的第一特征;或者,按照更新后权重从大到小的顺序对所述第一特征进行排序,筛选得到排序靠前的预设数目个第一特征。6.一种联邦学习系统,其特征在于,所述系统中至少包括第一参与方以及第二参与方,所述第一参与方持有样本的第一特征以及样本的样本标签,所述第二参与方持有样本的第二特征,所述第一参与方以及所述第二参与方分别选取相同样本组成的联合样本集,并分别将所述联合样本集中的同一样本作为中心样本R;所述第二参与方配置为:通过隐私计算的方式对所述第一参与方生成的第一矩阵以及所述第二参与方生成的第二矩阵进行处理,得到第二同类样本与所述中心样本R在各第二特征上的特征距离,以及第二异类样本与所述中心样本R在各第二特征上的特征距离,其中,所述第一矩阵用于描述所述联合样本集中各样本的样本标签,所述第二矩阵用于描述所述联合样本集中各样本的第二特征,所述第二同类样本为基于第二特征确定的与所述中心样本R标签相同且距离所
述中心样本R最近的k个样本,所述第二异类样本为基于第二特征确定的与所述中心样本R标签不同的每一类样本中距离所述中心样本R最近的k个样本;基于所述第二同类样本与所述中心样本R在各第二特征上的特征距离,以及所述第二异类样本与所述中心样本R在各第二特征上的特征距离,对各第二特征的权重进行更新,并根据更...
【专利技术属性】
技术研发人员:周一竞,张宇,孟丹,李宏宇,李晓林,
申请(专利权)人:杭州博盾习言科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。