一种因果特征的筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:37771637 阅读:27 留言:0更新日期:2023-06-06 13:36
本发明专利技术公开了一种因果特征的筛选方法、装置、设备及存储介质,所述方法包括:获取包含因果特征的待筛选数据,待筛选数据包括横向联邦场景数据与纵向联邦场景数据;对待筛选数据中的特征与标签变量进行条件独立性判断;根据条件独立性判断结果,对待筛选数据中的特征依次进行筛选,确定最终的因果特征集合。本发明专利技术提供的因果特征的筛选方法,通过将差分隐私和因果特征选择方法结合,保证数据不出库的前提下,实现多个参与方的联邦特征条件独立性检测,进而完成联邦学习环境下基于约束的因果特征选择,避免协调方泄露统计结果隐私信息,解决工程实施中无法找到绝对可信第三方的问题,可以满足不同联邦场景下的条件独立性判断需求。求。求。

【技术实现步骤摘要】
一种因果特征的筛选方法、装置、设备及存储介质


[0001]本专利技术涉及因果科学
,尤其涉及一种因果特征的筛选方法、装置、设备及存储介质。

技术介绍

[0002]特征选择作为一种特征维数约减技术,广泛应用于高维数据分析场景中。但传统的特征选择算法一般是基于特征与类属性之间的相关性进行筛选,因为相关性不代表特征与类属性之间的因果性,因此会导致预测分类模型缺乏可解释性、可操作性和鲁棒性。因果特征选择是发现类属性的贝叶斯网络的子结构,即马尔可夫毯(Markovblanket,MB),该MB由类属性的父母(直接原因),孩子(PC,直接结果)和配偶(SP,直接结果的其他直接原因)组成,从而明确地推导出局部类属性和特征之间的因果关系,可以构建可解释、可操作且健壮的预测分类模型。
[0003]在现有技术中,在多参与方联邦学习场景中,数据可用不可见的特性给因果特征选择应用设置了很多障碍,例如:1)基于数据隐私安全考虑,各参与方不共享原始数据,只交互加密的中间数据;2)当前联邦学习场景中一般采用可信第三方做协调方,进行中间数据的处理或模型融合,然而本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种因果特征的筛选方法,其特征在于,包括:获取包含所述因果特征的待筛选数据,所述待筛选数据包括横向联邦场景数据与纵向联邦场景数据;对所述待筛选数据中的特征与标签变量进行条件独立性判断;根据条件独立性判断结果,对所述待筛选数据中的特征依次进行筛选,确定最终的因果特征集合。2.根据权利要求1所述的方法,其特征在于,获取包含所述因果特征的待筛选数据,包括:获取包含所述因果特征的原始数据;若在横向联邦场景下,则对所述原始数据进行特征对齐、联邦特征工程与特征值脱敏处理;若在纵向联邦场景下,则对所述原始数据进行样本标识对齐、本地特征工程与特征值脱敏处理;将处理后的所述原始数据作为所述待筛选数据。3.根据权利要求1所述的方法,其特征在于,对所述待筛选数据中的特征与标签变量进行条件独立性判断,包括:分别对所述横向联邦场景数据与所述纵向联邦场景数据进行列联表统计;根据列联表统计结果对所述待筛选数据中的特征与标签变量进行条件独立性判断。4.根据权利要求3所述的方法,其特征在于,对所述横向联邦场景数据进行列联表统计,包括:统计所述横向联邦场景数据对应的候选特征、标签变量与条件特征的第一样本频数,生成本地样本频数列联表;在所述第一样本频数中加入噪声,得到第一隐私样本频数;根据所述第一隐私样本频数进行列联表融合计算,生成横向联邦样本频数列联表作为列联表统计结果。5.根据权利要求3所述的方法,其特征在于,对所述纵向联邦场景数据进行列联表统计,包括:对所述纵向联邦场景数据对应的候选特征、标签变量与条件特征分别进行特征分箱处理,得到各自对应的样本标识集合;根据特征分箱处理结果,确定不同特征值组合下的样本交集,作为第二样本频数;在所述第二样本频数中加入噪声,得到第二隐私样本频数作为列联表统计结果。6.根据权利要求4或5所述的方法,其特征在于,所述噪声满足条件独立性噪声约束条件。7.根据权利要求5所述的方法,其特征在于,根据特征分箱处理结果,确定不同特征值组合下的样本交集,包括:根据分箱处理结果进...

【专利技术属性】
技术研发人员:张燕夏正勋谭锋镭
申请(专利权)人:星环信息科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1