【技术实现步骤摘要】
一种基于同态加密的联邦学习特征筛选方法及系统
[0001]本专利技术涉及隐私计算
,具体而言,涉及一种基于同态加密的联邦学习特征筛选方法及系统
。
技术介绍
[0002]作为“数据可用不可见
、
数据不动模型动”分布式机器学习应用新范式,联邦学习的核心思想是通过在多个数据源间进行分布式模型训练,即无需交换本地数据前提下,仅交换模型参数中间结果,构建基于虚拟融合数据下的全局模型,实现数据隐私保护和价值共享的平衡
。
根据不同参与方数据特征空间和样本
ID
空间分布情况,联邦学习分为横向联邦学习
、
纵向联邦学习
、
迁移联邦学习
。
[0003]与传统中心化机器学习技术相同,联邦学习中“各训练方的特征组合”对于获得的全局虚拟模型性能至关重要,恰当的特征组合使得训练的全局虚拟模型可以更好地捕捉数据信息,提升模型表现力
。
[0004]纵向联邦学习场景中,“缺少目标数据”的训练参与方“无法单独完成本地特征选择”,只能将全部特征用于模型训练造成模型性能较差
。
技术实现思路
[0005]本专利技术实施例中提供一种基于同态加密的联邦学习特征筛选方法及系统,以解决“缺少目标数据”的训练参与方“无法单独完成本地特征选择”,只能将全部的特征用于模型训练,造成模型性能较差的问题
。
[0006]为达到上述目的,一方面,本专利技术提供了一种基于同态加密的联邦学习特征筛选方法 ...
【技术保护点】
【技术特征摘要】
1.
一种基于同态加密的联邦学习特征筛选方法,其特征在于,包括:
S1、
获取第二参与方中所有用户的加密目标值;
S2、
根据特征分箱方法对第一参与方的每个特征对应的用户进行分箱,并统计每个特征中每个分箱的用户数量;
S3、
根据所有用户的加密目标值计算每个特征中每个分箱内所有用户的加密目标值的和值;将每个特征对应的所有和值发送给所述第二参与方,以使所述第二参与方进行解密,并统计每个特征中每个分箱内目标值为1的用户数量;
S4、
获取每个特征中每个分箱内目标值为1的用户数量;并根据每个特征中每个分箱的用户数量和每个特征中每个分箱内目标值为1的用户数量计算得到每个特征的信息价值;
S5、
根据所有特征的信息价值以及预设的特征评价标准筛选出符合要求的特征
。2.
根据权利要求1所述的方法,其特征在于,所述
S4
包括:获取每个特征中每个分箱内目标值为1的用户数量;并根据每个特征中每个分箱的用户数量和每个特征中每个分箱内目标值为1的用户数量计算得到每个特征中每个分箱内目标值为0的用户数量;根据每个特征中每个分箱内目标值为0的用户数量和每个特征中每个分箱内目标值为1的用户数量计算得到每个特征中每个分箱的证据权重;根据每个特征中每个分箱内目标值为0的用户数量
、
每个特征中每个分箱内目标值为1的用户数量以及每个特征中每个分箱的证据权重计算得到每个特征中每个分箱的信息价值;根据每个特征中所有分箱的信息价值计算得到每个特征的信息价值
。3.
根据权利要求2所述的方法,其特征在于:当前特征每个分箱的证据权重根据以下公式计算:其中,为当前特征第
i
个分箱内目标值为0的用户数量,为当前特征第
i
个分箱内目标值为1的用户数量,
n1为当前特征分箱的数量,为当前特征第
i
个分箱的证据权重;当前特征每个分箱的信息价值根据以下公式计算:其中,当前特征第
i
个分箱的信息价值;为当前特征第
i
个分箱内目标值为0的用户数量,为当前特征第
i
个分箱内目标值为1的用户数量,
n1为当前特征分箱的数量,为当前特征第
i
个分箱的证据权重
。4.
根据权利要求1所述的方法,其特征在于:所述特征分箱方法包括:卡方分箱
、
最小熵法分箱
。5.
根据权利要求1所述的方法,其特征在于:
所述预设的特征评价标准为:若当前特征的信息价值小于第一预设阈值,则判断当前特征为无价值特征;若当前特征的信息价值大于或等于第一预设阈值且小于第二预设阈值,则判断当前特征为弱价值特征;若当前特征的信息价值大于或等于第二预设阈值且小于第三预设阈值,则判断当前特征为中价值特征;若当前特征的信息价值大于或等于第三预设阈值且小于第四预设阈值,则判断当前特征为强价值特征;若当前特征的信息价值大于或等于第四预设阈值,则判断当前特征为不真实特征
【专利技术属性】
技术研发人员:马平,兰春嘉,
申请(专利权)人:上海零数众合信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。