一种基于隐私求交的纵向联邦统计方法技术

技术编号:36910626 阅读:55 留言:0更新日期:2023-03-18 09:29
本发明专利技术提供一种基于隐私求交的纵向联邦统计方法,该方法包括参与方A和参与方B两个参与的或者超过两个参与方的,包括得到隐私交集的id集合{id}的步骤、筛选得到id分组的步骤、将id分组发送给其它参与方的步骤、计算各个id分组的本地目标特征统计值的步骤、将本地目标特征统计值的步骤返回参与方A的步骤以及参与方A获得联邦统计结果的步骤。本发明专利技术在不泄露各方数据隐私的情况下,实现跨机构的纵向联邦统计分析。统计分析。统计分析。

【技术实现步骤摘要】
federated big data analysis(保护隐私的联邦大数据分析)等,通过通用多方计算框架实现联邦统计。
[0011]通用开源联邦学习FATE,没有通用的联邦统计模块,只在Feature binning模块中包含一种等频统计,属于一种分位数统计。
[0012]另外,知乎中的文章《Pandas+隐私计算:Delta中的联邦统计》https://zhuanlan.zhihu.com/p/475517693实现了横向联邦中的联邦统计。
[0013]目前,联邦统计中,要么使用通用的多方计算框架,通讯计算开销比较大,整体效率不高;要么就是没有通用的联邦统计模块,联邦统计功能不足;或者主要针对横向联邦中的联邦统计,未考虑纵向联邦。总之,目前联邦统计的研究或者实践中,在不泄露各方数据隐私的情况下,难以实现跨机构的纵向联邦统计分析。

技术实现思路

[0014]鉴于现有技术存在的上述问题,本专利技术的目的在于提供一种基于隐私求交的纵向联邦统计方法,在不泄露各方数据隐私的情况下,实现跨机构的纵向联邦统计分析。
[0015]为了实现上述目的,本专利技术提供一种基于隐私求交的纵向联邦统计方法,包括以下步骤:
[0016]步骤1、参与方A和参与方B之间运行隐私求交协议,得到隐私交集的id集合{id};
[0017]步骤2、参与方A通过本地筛选特征,进一步从隐私交集{id}中筛选得到id分组;
[0018]步骤3、参与方A将id分组发送给参与方B;
[0019]步骤4、参与方B在获得id分组后,根据统计方法,计算各个id分组的本地目标特征统计值;
[0020]步骤5、参与方B将各个id分组的本地目标特征统计值发给参与方A;
[0021]步骤6、参与方A获得联邦统计结果,结束。
[0022]进一步的,上述的基于隐私求交的纵向联邦统计方法中:在步骤1初始化步骤;所述初始化步骤包括参与方初始化如下配置参数:id分组筛选特征(支持多特征筛选),统计的目标特征(支持多特征统计);统计方法;
[0023]进一步的,上述的基于隐私求交的纵向联邦统计方法中:所述id分组筛选特征支持多个特征一起筛选。
[0024]进一步的,上述的基于隐私求交的纵向联邦统计方法中:所述统计的目标特征支持多特征统计,统计方法包括:count(计数),max(最大值),min(最小值),sum(求和),avg(平均值)等常见统计指标。
[0025]进一步的,上述的基于隐私求交的纵向联邦统计方法中:所述步骤1中运行隐私求交协议包括基于椭圆曲线公钥加密Curve25519算法的PSI协议。
[0026]本专利技术还提供一种基于隐私求交的纵向联邦统计方法,包括以下步骤:
[0027]步骤1、各参与方之间运行多方隐私求交协议,得到交集id集合;
[0028]步骤2、参与方A通过本地筛选特征,从交集id集合中进一步筛选得到id分组;
[0029]步骤3、参与方A将id分组发送给其他所有参与方;
[0030]步骤4、其他所有参与方在获得id分组后,根据统计方法,分别各自计算各个id分组的本地目标特征统计值;
[0031]步骤5、其他所有参与方分别将各自计算的各个id分组的本地目标特征统计值发给参与方A;
[0032]步骤6、参与方A获得联邦统计结果,结束。
[0033]本专利技术在不泄露各方数据隐私的情况下,实现跨机构的纵向联邦统计分析。
[0034]下面结合附图和具体实施方式对本专利技术进行进一步的说明。
附图说明
[0035]图1为本专利技术实施例中基于隐私求交的纵向联邦统计方法流程图。
具体实施方式
[0036]实施例1,一种参与方A和参与方B两个参与方之间实施的基于隐私求交的纵向联邦统计方法,如图1所示,该方法的主要思路如下:
[0037]首先针对纵向联邦的特点,各参与方通过隐私求交获得共同的数据样本交集,得到交集id。之后一个参与方再通过本地特征筛选需要统计的id分组,并将id分组发送给另一个参与方,另一个参与方计算本地特征的统计值发送给之前的参与方。这里id是数据样本的唯一标识。
[0038]在这个过程中,只需要传递共同交集中筛选的id分组,以及最终统计结果,不会泄露参与方具体的隐私数据,达到了纵向联邦统计中隐私保护的目的。
[0039]具体方案如图1所示:
[0040]S1、参与方A和参与方B都进行初始化本地配置,包括id分组筛选特征(支持多个特征一起筛选),统计的目标特征(支持多特征统计),统计方法:count(计数),max(最大值),min(最小值),sum(求和),avg(平均值)等。统计方法主要包括count计数,max最大值,min最小值,sum求和,avg平均值等常见统计指标或者统计方法。
[0041]S2、参与方A和参与方B之间运行隐私求交协议,得到隐私交集的id集合{id}。
[0042]S3、参与方A通过本地筛选特征,从隐私交集{id}中筛选得到id分组:{IdGroup1,IdGroup2,IdGroup3,

}。IdGroup1,IdGroup2,IdGroup3分别表示第一组、第二组、第三组id。
[0043]S4、参与方A将id分组发送给参与方B。
[0044]S5、参与方B在获得id分组后,根据统计方法,计算各个id分组的本地目标特征统计值。
[0045]S6、参与方B将目标特征统计值发给参与方A。
[0046]S7参与方A获得联邦统计结果,联邦统计任务结束。
[0047]具体步骤如下:
[0048]具体步骤:
[0049](1)、首先选取一个计算通信的框架,这里选择开源的联邦学习框架FATE。
[0050](2)、各参与方在初始化本地配置,包括id分组筛选特征,统计目标特征,统计方法。
[0051](3)、参与方之间运行PSI隐私求交协议,得到隐私交集id:{id}。PSI协议可以是任何安全的协议,这里我们使用基于椭圆曲线公钥加密Curve25519算法的PSI协议。
[0052](4)、参与方A通过本地id分组筛选特征计算id分组,假设这里我们需要通过统计所有数据中男女平均年龄,那么参与方A的筛选特征就是性别gender。筛选出特征值分别为male,female(男,女)的两个id分组:{IdGroup1,IdGroup2}。
[0053](5)、参与方A发送id分组给参与方B。
[0054](6)、参与方B根据本地配置文件的统计目标特征:年龄age,统计方法:平均average,并计算得到各个id分组对应的统计结果:{28,25}。
[0055](7)、参与方B将结果发送给参与方A,参与方A得到结果后,联邦统计任务结束。
[0056]实施例2是多个参与方,也就是说超过两个参与方之间实施的基于隐私求交的纵向联邦统计方法。该方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私求交的纵向联邦统计方法,其特征在于:包括以下步骤:步骤1、参与方A和参与方B之间运行隐私求交协议,得到隐私交集的id集合{id};步骤2、参与方A通过本地筛选特征,从隐私交集{id}中筛选得到id分组;步骤3、参与方A将id分组发送给参与方B;步骤4、参与方B在获得id分组后,根据统计方法,计算各个id分组的本地目标特征统计值;步骤5、参与方B将各个id分组的本地目标特征统计值发给参与方A;步骤6、参与方A获得联邦统计结果,结束。2.根据权利要求1所述的基于隐私求交的纵向联邦统计方法,其特征在于:在步骤1之前还初始化步骤;所述初始化步骤包括:id分组筛选特征,统计的目标特征,统计方法。3.根据权利要求2所述的基于隐私求交的纵向联邦统计方法,其特征在于:所述id分组筛选特征支持多个特征一起筛选。4.根据权利要求2所述的基于隐私求交的...

【专利技术属性】
技术研发人员:谈扬
申请(专利权)人:深圳前海新心数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1