System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于隐私保护的多方数据联合分析方法及系统技术方案_技高网

一种基于隐私保护的多方数据联合分析方法及系统技术方案

技术编号:41110412 阅读:2 留言:0更新日期:2024-04-25 14:03
本发明专利技术公开了一种基于隐私保护的多方数据联合分析方法及系统。该方法包括以下步骤:发起方发起联合分析任务,发起方根据第一样本数据集计算出第一核验码,参与方根据第二样本数据集计算出第二核验码并发送给发起方;发起方根据第一核验码、第二核验码查找自身是否存储有对应的联合数据集,如果是,则取出对应的联合数据集;否则,发起方、参与方进行隐匿集合求交,得到对应的交集ID,参与方存储交集ID,发起方存储联合数据集;发起方根据联合数据集配置分析规则,根据分析规则生成联合计算任务;发起方、参与方采用联合分析算法执行联合计算任务。本发明专利技术能够提高数据联合分析效率,减少数据联合分析过程中计算资源、带宽资源的浪费。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种基于隐私保护的多方数据联合分析方法及系统


技术介绍

1、随着机器学习技术的不断发展,可以通过对大数据进行安全联合分析,实现数据智能分析的目的。然而,大数据的来源可能来自不同的企业,而不同企业的数据往往存在着具有巨大的潜在价值,出于数据安全的考虑企业无法将各自的隐私数据与其他企业进行共享。当前,可以通过采用联邦学习系统,在各方(不同企业,或同一企业不同部门)不需要向其他方披露隐私数据的前提下,协作进行联合分析,通过多方的数据联合分析,多维度洞察业务趋势,为了业务方向变化提供数字化支撑,辅助科学制定业务决策。

2、采用现有的联邦学习系统做一次多方数据联合分析,会经历隐匿求交、配置分析规则、联合计算等多个过程,整体计算耗时久,并且一旦分析规则的配置发生了变更,若需要获得新的计算结果,则需要重新提交运行任务,才能获得更新后的计算结果,存在计算耗时久,隐匿求交重复计算,计算资源、带宽资源浪费等问题。


技术实现思路

1、本专利技术为了解决上述技术问题,提供了一种基于隐私保护的多方数据联合分析方法及系统,其在新的联合分析任务需要用到发起方、参与方的样本数据集与之前的联合分析任务一致时,可直接取出对应的联合数据集进行后续分析计算,无需重复进行隐匿集合求交计算,从而提高了计算效率,减少数据联合分析过程中计算资源、带宽资源的浪费。

2、为了解决上述问题,本专利技术采用以下技术方案予以实现:

3、本专利技术的一种基于隐私保护的多方数据联合分析方法,多方包括发起方和参与方,包括以下步骤:

4、s1:发起方发起联合分析任务,发起方根据自身持有的用于分析的第一样本数据集计算出第一核验码,参与方根据自身持有的用于分析的第二样本数据集计算出第二核验码并发送给发起方;

5、s2:发起方根据第一核验码、第二核验码查找自身是否存储有对应的联合数据集,如果是,则取出对应的联合数据集;否则,发起方、参与方对第一样本数据集的id、第二样本数据集的id进行隐匿集合求交,得到对应的交集id,参与方存储交集id,发起方存储联合数据集,联合数据集包括交集id、第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称;

6、s3:发起方根据联合数据集配置分析规则,根据分析规则生成联合计算任务;

7、s4:发起方、参与方采用联合分析算法执行联合计算任务,发起方得到联合计算任务的计算结果。

8、作为优选,所述第一核验码、第二核验码都为md5码。

9、作为优选,所述步骤s1中根据样本数据集计算出核验码的方法包括以下步骤:

10、n1:判断样本数据集是否小于或等于g兆比特,如果是,则计算样本数据集的md5码,将md5码作为核验码,否则,执行步骤n2;

11、n2:选取d个cpu核心,将样本数据集拆分为d份子数据集,cpu核心与子数据集一一对应,d个cpu核心并行计算出对应子数据集的md5码,将计算出的md5码拼接成字符串s,采用哈希算法sha-1计算出字符串s的哈希值,将哈希值作为核验码。

12、当样本数据集较小时,由单个cpu核心直接计算出其md5码作为核验码。

13、当样本数据集较大时,将其拆分后由多个cpu核心并行计算出对应的md5码,将md5码拼接成字符串s后计算出哈希值作为核验码,提高了核验码的计算效率。

14、作为优选,所述步骤n2包括以下步骤:

15、n21:选取d个cpu核心,d=c//2,将d个cpu核心依次编号为1,2……d,1≤i≤d,其中,//表示整除运算,c为计算集群cpu的cpu核心总数,c≥4;

16、n22:样本数据集具有的id总数为r,将样本数据集具有的r个id分为d份,从而将样本数据集拆分为d份子数据集,d份子数据集依次编号为1,2……d,如果r=(r//d)*d,则每份子数据集具有的id数为r//d;如果r>(r//d)*d,则编号为1,2……d-1的子数据集具有的id数都为r//d,编号为d的子数据集具有的id数为r//d+(r-(r//d)*d);

17、n23:编号为i的cpu核心计算编号为i的子数据集的md5码,记为md5(i);

18、n24:将计算出的md5(1), md5(2)……md5(d)拼接成字符串s,s=md5(1)&md5(2)&……&md5(d),&为拼接符,采用哈希算法sha-1计算出字符串s的哈希值,将哈希值作为核验码。

19、作为优选,所述步骤s2包括以下步骤:发起方将第一核验码、第二核验码进行拼接得到任务标识,查找发起方是否存储有与该任务标识绑定的联合数据集,如果是,则取出与该任务标识绑定的联合数据集;否则,发起方、参与方对第一样本数据集的id、第二样本数据集的id进行隐匿集合求交,得到对应的交集id,参与方将交集id及该任务标识绑定存储,发起方将联合数据集及该任务标识绑定存储,联合数据集包括交集id、第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称。

20、作为优选,所述发起方根据联合数据集配置分析规则的方法包括以下步骤:发起方从联合数据集记载的第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称中选择需要进行分析的特征名称,配置特征的分析规则,分析规则包括过滤计算规则、聚合计算规则、指标计算规则。

21、作为优选,所述根据分析规则生成联合计算任务的方法包括以下步骤:获取配置的分析规则,将分析规则按照过滤计算规则、聚合计算规则、指标计算规则的顺序重新排列,并生成对应的规则计算依赖树,解析分析规则,获得需要进行计算的特征名称,生成联合计算任务,联合计算任务包括发起方计算任务和参与方计算任务,发起方计算任务包括规则计算依赖树以及位于第一样本数据集中的需要进行计算的特征名称,参与方计算任务包括规则计算依赖树以及位于第二样本数据集中的需要进行计算的特征名称。

22、作为优选,所述步骤s4包括以下步骤:当发起方计算任务中需要进行计算的特征名称个数大于0且参与方计算任务中需要进行计算的特征名称个数大于0时,发起方将参与方计算任务发送给参与方,发起方、参与方采用基于秘密分享的安全协议按照规则计算依赖树的顺序进行计算,发起方得到计算结果;

23、当发起方计算任务中需要进行计算的特征名称个数为0时,发起方将参与方计算任务发送给参与方,参与方按照规则计算依赖树的顺序进行计算,将得到的计算结果发送给发起方;

24、当参与方计算任务中需要进行计算的特征名称个数为0时,发起方按照规则计算依赖树的顺序进行计算,得到计算结果。

25、当需要进行计算的特征名称只在发起方计算任务中或只在参与方计算任务中时,只需发起方或参与方单方进行计算,节省计算、通信耗时。

26、本专利技术的一种基于隐私保护的多方数据联合分析系统,用于上述的一种基于隐私保护的多方本文档来自技高网...

【技术保护点】

1.一种基于隐私保护的多方数据联合分析方法,所述多方包括发起方和参与方,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述第一核验码、第二核验码都为MD5码。

3.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤S1中根据样本数据集计算出核验码的方法包括以下步骤:

4.根据权利要求3所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤N2包括以下步骤:

5.根据权利要求1或2或3或4所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤S2包括以下步骤:发起方将第一核验码、第二核验码进行拼接得到任务标识,查找发起方是否存储有与该任务标识绑定的联合数据集,如果是,则取出与该任务标识绑定的联合数据集;否则,发起方、参与方对第一样本数据集的ID、第二样本数据集的ID进行隐匿集合求交,得到对应的交集ID,参与方将交集ID及该任务标识绑定存储,发起方将联合数据集及该任务标识绑定存储,联合数据集包括交集ID、第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称。

6.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述发起方根据联合数据集配置分析规则的方法包括以下步骤:发起方从联合数据集记载的第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称中选择需要进行分析的特征名称,配置特征的分析规则,分析规则包括过滤计算规则、聚合计算规则、指标计算规则。

7.根据权利要求6所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述根据分析规则生成联合计算任务的方法包括以下步骤:获取配置的分析规则,将分析规则按照过滤计算规则、聚合计算规则、指标计算规则的顺序重新排列,并生成对应的规则计算依赖树,解析分析规则,获得需要进行计算的特征名称,生成联合计算任务,联合计算任务包括发起方计算任务和参与方计算任务,发起方计算任务包括规则计算依赖树以及位于第一样本数据集中的需要进行计算的特征名称,参与方计算任务包括规则计算依赖树以及位于第二样本数据集中的需要进行计算的特征名称。

8.根据权利要求7所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤S4包括以下步骤:

9.一种基于隐私保护的多方数据联合分析系统,用于权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,包括部署在每一方的联合分析端,所述联合分析端包括:

10.根据权利要求9所述的一种基于隐私保护的多方数据联合分析系统,其特征在于,所述联合计算引擎包括:

...

【技术特征摘要】

1.一种基于隐私保护的多方数据联合分析方法,所述多方包括发起方和参与方,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述第一核验码、第二核验码都为md5码。

3.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤s1中根据样本数据集计算出核验码的方法包括以下步骤:

4.根据权利要求3所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤n2包括以下步骤:

5.根据权利要求1或2或3或4所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述步骤s2包括以下步骤:发起方将第一核验码、第二核验码进行拼接得到任务标识,查找发起方是否存储有与该任务标识绑定的联合数据集,如果是,则取出与该任务标识绑定的联合数据集;否则,发起方、参与方对第一样本数据集的id、第二样本数据集的id进行隐匿集合求交,得到对应的交集id,参与方将交集id及该任务标识绑定存储,发起方将联合数据集及该任务标识绑定存储,联合数据集包括交集id、第一样本数据集中的所有特征名称、第二样本数据集中的所有特征名称。

6.根据权利要求1所述的一种基于隐私保护的多方数据联合分析方法,其特征在于,所述发起方根据联合数据集配置分析...

【专利技术属性】
技术研发人员:朱振超杜晓黎李陆沁
申请(专利权)人:蓝象智联杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1