System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于隐私保护的数据处理方法及装置制造方法及图纸_技高网

基于隐私保护的数据处理方法及装置制造方法及图纸

技术编号:41256365 阅读:4 留言:0更新日期:2024-05-11 09:16
本说明书实施例提供了基于隐私保护的数据处理方法及装置。该方法涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方。该方法可由第一参与方的第一设备执行,包括:利用预设的数据分区规则将第一数据集合划分成m个第一分区;其中,m为第一参与方和第二参与方协商的最大分区数,第二数据集合基于该数据分区规则被划分成m个第二分区;通过与第二参与方的第二设备、及包括向量不经意线性评估VOLE生成器的第三设备的交互,并行确定m个第一分区各自和与其分区号相同的第二分区之间的第一交集;将各个第一交集的并集,确定为第一数据集合和第二数据集合之间的第二交集。

【技术实现步骤摘要】

本说明书实施例属于计算机,尤其涉及基于隐私保护的数据处理方法及装置


技术介绍

1、在隐私计算场景下,经常面临多方合作。其中,在海量数据规模下,有些算法变得不可实现,尤其是一些非单纯的map计算的算法,如:需要对全量数据进行二选哈希法(2-choice hashing)等特性的。在海量数据规模下,内存和计算性能都成为了瓶颈。


技术实现思路

1、本专利技术的目的在于提供一种基于隐私保护的数据处理方案,在海量数据规模下,能有效降低隐私计算的内存需求,提升计算性能。

2、本说明书第一方面提供一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第一参与方的第一设备执行,包括:利用预设的数据分区规则将所述第一数据集合划分成m个第一分区;其中,m为所述第一参与方和所述第二参与方协商的最大分区数,所述第二数据集合基于所述数据分区规则被划分成m个第二分区;通过与所述第二参与方的第二设备、及包括向量不经意线性评估vole生成器的第三设备的交互,并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集;将各个第一交集的并集,确定为所述第一数据集合和所述第二数据集合之间的第二交集。

3、本说明书第二方面提供一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第二参与方的第二设备执行,包括:利用预设的数据分区规则将所述第二数据集合划分成m个第二分区;其中,m为所述第一参与方和所述第二参与方协商的最大分区数,所述第一数据集合基于所述数据分区规则被划分成m个第一分区;通过与所述第一参与方的第一设备、及包括向量不经意线性评估vole生成器的第三设备的交互,使得所述第一设备并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集,并将各个第一交集的并集确定为所述第一数据集合和所述第二数据集合之间的第二交集。

4、本说明书第三方面提供一种基于隐私保护的数据处理装置,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述装置应用于所述第一参与方的第一设备,包括:数据分区单元,被配置成利用预设的数据分区规则将所述第一数据集合划分成m个第一分区;其中,m为所述第一参与方和所述第二参与方协商的最大分区数,所述第二数据集合基于所述数据分区规则被划分成m个第二分区;第一确定单元,被配置成通过与所述第二参与方的第二设备、及包括向量不经意线性评估vole生成器的第三设备的交互,并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集;第二确定单元,被配置成将各个第一交集的并集,确定为所述第一数据集合和所述第二数据集合之间的第二交集。

5、本说明书第四方面提供一种基于隐私保护的数据处理装置,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述装置应用于所述第二参与方的第二设备,包括:数据分区单元,被配置成利用预设的数据分区规则将所述第二数据集合划分成m个第二分区;其中,m为所述第一参与方和所述第二参与方协商的最大分区数,所述第一数据集合基于所述数据分区规则被划分成m个第一分区;处理单元,被配置成通过与所述第一参与方的第一设备、及包括向量不经意线性评估vole生成器的第三设备的交互,使得所述第一设备并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集,并将各个第一交集的并集确定为所述第一数据集合和所述第二数据集合之间的第二交集。

6、本说明书第五方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如第一方面和第二方面中任一实现方式描述的方法。

7、本说明书第六方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面和第二方面中任一实现方式描述的方法。

8、本说明书第七方面提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如第一方面和第二方面中任一实现方式描述的方法。

9、本说明书实施例提供的方案,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,且双方协商出最大分区数m。在该方案中,第一参与方的第一设备利用预设的数据分区规则将第一数据集合划分成m个第一分区,第二参与方的第二设备利用该数据分区规则将第二数据集合划分成m个第二分区。之后,第一设备通过与第二设备、及包括vole(vector oblivious linear evaluation,向量不经意线性评估)生成器的第三设备的交互,并行确定m个第一分区各自和与其分区号相同的第二分区之间的第一交集,并将各个第一交集的并集,确定为第一数据集合和第二数据集合之间的第二交集。根据公知常识,在海量数据规模下,为了哈希值的均匀,线性插值计算高效,数据膨胀倍数尽可能小,vole算法一般使用2-choice hashing。。在该方案中,由于双方基于相同的数据分区规则和协商出的最大分区数m进行数据分区,因而能使得双方相同的数据在分区号相同的分区中,这样能将每个分区当做全量的数据,在每个分区内部进行全量vole算法流程计算。由此,在海量数据规模下,该方案能使得每个分区的数据量较小,从而能有效降低隐私计算的内存需求,而且采用基于分区的并行计算方式能有效提升计算性能。

本文档来自技高网...

【技术保护点】

1.一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第一参与方的第一设备执行,包括:

2.根据权利要求1所述的方法,其中,所述数据分区规则中包括第一哈希函数;

3.根据权利要求2所述的方法,其中,所述第一数据集合和所述第二数据集合的数据量均为n,所述数据分区规则中还包括哈希桶分配子规则;

4.根据权利要求1所述的方法,其中,所述通过与所述第二参与方的第二设备、及包括向量不经意线性评估VOLE生成器的第三设备的交互,并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集,包括:

5.根据权利要求4所述的方法,其中,单个第二哈希桶和单个第三哈希桶对应相同的期望数据量;

6.根据权利要求4或5所述的方法,其中,所述通过与所述第二设备和所述第三设备的交互,确定所述N个第二哈希桶各自包括的各个第一数据和与其桶号相同的第三哈希桶包括的各个第二数据之间的第三交集,包括:

7.一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第二参与方的第二设备执行,包括:

8.根据权利要求7所述的方法,其中,所述数据分区规则中包括第一哈希函数;

9.根据权利要求8所述的方法,其中,所述第一数据集合和所述第二数据集合的数据量均为n,所述数据分区规则中还包括哈希桶分配子规则;

10.根据权利要求7所述的方法,其中,所述通过与所述第一参与方的第一设备、及包括向量不经意线性评估VOLE生成器的第三设备的交互,使得所述第一设备并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集,包括:

11.根据权利要求10所述的方法,其中,单个第二哈希桶和单个第三哈希桶对应相同的期望数据量;

12.根据权利要求10或11所述的方法,其中,所述通过与所述第一设备和所述第三设备的交互,使得所述第一设备确定所述N个第二哈希桶各自包括的各个第一数据和与其桶号相同的第三哈希桶包括的各个第二数据之间的第三交集,包括:

13.一种基于隐私保护的数据处理装置,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述装置应用于所述第一参与方的第一设备,包括:

14.一种基于隐私保护的数据处理装置,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述装置应用于所述第二参与方的第二设备,包括:

15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项所述的方法。

16.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。

...

【技术特征摘要】

1.一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第一参与方的第一设备执行,包括:

2.根据权利要求1所述的方法,其中,所述数据分区规则中包括第一哈希函数;

3.根据权利要求2所述的方法,其中,所述第一数据集合和所述第二数据集合的数据量均为n,所述数据分区规则中还包括哈希桶分配子规则;

4.根据权利要求1所述的方法,其中,所述通过与所述第二参与方的第二设备、及包括向量不经意线性评估vole生成器的第三设备的交互,并行确定所述m个第一分区各自和与其分区号相同的第二分区之间的第一交集,包括:

5.根据权利要求4所述的方法,其中,单个第二哈希桶和单个第三哈希桶对应相同的期望数据量;

6.根据权利要求4或5所述的方法,其中,所述通过与所述第二设备和所述第三设备的交互,确定所述n个第二哈希桶各自包括的各个第一数据和与其桶号相同的第三哈希桶包括的各个第二数据之间的第三交集,包括:

7.一种基于隐私保护的数据处理方法,涉及持有第一数据集合的第一参与方,以及持有第二数据集合的第二参与方,所述方法由所述第二参与方的第二设备执行,包括:

8.根据权利要求7所述的方法,其中,所述数据分区规则中包括第一哈希函数;

9.根据权利要求8所述的方法,其中,所述第一数据集合和所述第二数据集合的数据量均为n...

【专利技术属性】
技术研发人员:董佳佳张启超殷山
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1