双重服务器隐私保护聚类制造技术

技术编号:34076679 阅读:77 留言:0更新日期:2022-07-11 17:52
本文描述了用于隐私保护无监督学习的系统和技术。所公开的系统和方法可以使得由单独实体操作的单独计算机能够基于其相应数据池而联合执行无监督学习,同时保护隐私。所述系统能提高效率和可扩展性,同时保护隐私并避免泄漏集群标识。所述系统可以基于N取1不经意传输(OT)经由来自所述计算机的相应数据值x和y的隐私保护乘法联合计算安全距离。在各种实施例中,N可以是2、4或一些其它数目的共享数。第一计算机可以用基数N表达其数据值x。第二计算机可形成包括l个随机数nu、o和剩余元素的lxN矩阵。所述第一计算机可以从所述OT接收具有分量的输出向量。的输出向量。的输出向量。

【技术实现步骤摘要】
【国外来华专利技术】双重服务器隐私保护聚类

技术介绍

[0001]本申请是国际申请,其要求2019年11月6日提交的第16/675,499号美国申请的提交日的优先权,所述美国申请出于所有目的以全文引用的方式并入本文中。
[0002]机器学习(ML)方法以及具体地例如k均值聚类和分层聚类等无监督学习方法在例如标识交易模式、市场研究、社交网络、搜索、分类和典型化观察等应用中非常有用。
[0003]在一些情况下,拥有单独数据集的不同实体可能希望对数据进行聚类,以便分析信息同时保持数据的私密性。存在进行隐私保护学习的有限数目的方法,但此类方法可能受到例如效率、扩展到大型数据集和数据泄漏等问题的限制。
[0004]本公开的实施例单独地以及共同地解决这些问题和其它问题。

技术实现思路

[0005]本文描述了用于隐私保护无监督学习的系统和技术。所公开的系统和方法可以使得由单独实体操作的单独计算机能够基于其相应数据池而联合执行无监督学习,同时保护隐私。所述系统能提高效率和到大型数据集的可扩展性,同时保护隐私并避免泄漏集群标识。
[0006]在实施例中,所述系本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种执行隐私保护无监督学习的方法,所述方法包括:由至少第一计算机和第二计算机通过基于与数目N个共享数相对应的N取1不经意传输(OT)至少执行所述第一计算机的第一数据值和所述第二计算机的第二数据值的隐私保护乘法来联合计算安全距离,所述隐私保护乘法还包括:由所述第一计算机将所述第一数据值表达为具有数目L个分量的第一向量,其中具有索引i的相应分量包括基数等于N的所述第一数据值的相应分解系数;以及由所述第二计算机形成具有所述相应分解系数的所述索引i和第二索引的相应N分量向量;由所述第一计算机接收所述N取1OT的输出向量,其中所述输出向量的具有索引i的分量包括所述相应N分量向量的分量,所述分量具有索引i并且具有与所述基数等于N的所述第一数据值的所述相应分解系数相对应的所述第二索引;以及基于所述安全距离将数据私下分配给多个集群中的相应集群。2.根据权利要求1所述的方法,其中:具有等于0的所述第二索引的所述相应N分量向量的第一分量包括相应伪随机数;并且具有等于j的所述第二索引的相应剩余分量包括所述第二数据值乘以j并乘以N的i次幂、再减去所述相应N分量向量的所述第一分量。3.根据权利要求1所述的方法,其中将所述数据私下分配给所述多个集群中的所述相应集群还包括:经由混淆电路标识所述多个集群中针对所述数据的多个元素中的相应元素的最佳匹配集群,其中所述最佳匹配集群具有与所述相应元素具有最小距离的质心;以及将所述最佳匹配集群表示为包括所述相应元素的集群标志的二进制向量。4.根据权利要求1所述的方法,其中执行所述隐私保护无监督学习还包括通过至少以下方式私下更新集群的质心:对于所述数据的多个元素中的相应元素并且经由第二OT和第三OT,将所述集群的集群标志和所述相应元素的组合的第一共享数和第二共享数乘以所述相应元素的位置向量的组合的第一共享数和第二共享数,其中:所述集群标志的所述第一共享数和所述位置向量的所述第一共享数属于所述第一计算机;并且所述集群标志的所述第二共享数和所述位置向量的所述第二共享数属于所述第二计算机;将所述多个元素相乘的乘积求和;将求和的乘积除以所述集群标志的所述组合的第一共享数和第二共享数的所述多个元素的和;以及基于所述除法的结果更新所述质心。5.根据权利要求4所述的方法,其中所述集群标志的所述第一共享数和所述第二共享数由异或组合。6.根据权利要求1所述的方法,其中所述隐私保护无监督学习包括k均值聚类,所述k均值聚类还包括:选择多个种子集群;
基于所述安全距离联合计算所述数据的相应元素的相应位置向量与相应种子集群的相应质心之间的距离,其中所述相应位置向量在所述第一计算机与所述第二计算机之间共享;标识与所述相应位置向量具有最小距离的第一集群;将所述相应元素分配给所述第一集群;以及基于分配给所述第一集群的所述数据的元素的包括所述相应位置向量在内的位置向量的平均值,更新所述第一集群的第一质心。7.根据权利要求1所述的方法,其中:N等于2,并且N取1OT包括2取1OT;或者N等于4,并且N取1OT包括4取1OT。8.根据权利要求1所述的方法,其中所述安全距离包括安全欧几里得距离。9.根据权利要求1所述的方法,其中:所述第一计算机最初具有所述第一数据值并接收第一输出共享数值;所述第二计算机最初具有所述第二数据值并接收第二输出共享数值;并且所述第一输出共享数值和所述第二输出共享数值之和等于所述第一数据值和所述第二数据值的乘积。10.根据权利要求1所述的方法,还包括由所述第二计算机获得所述N取1OT的第二输出向量,其中所述第二输出向量的具有索引i的分量包括所述相应N分量向量的分量,所述分量具有所述索引i并且具有所述第二索引0。11.一种计算系统,其包括:第一计算机,所述第一计算机包括第一处理器;第二计算机,所述第二计算机包括第二处理器;以及一个或多个存储器,所述一个或多个存储器包括指令,...

【专利技术属性】
技术研发人员:P
申请(专利权)人:维萨国际服务协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1