多方联合对隐私数据进行降维处理的方法和装置制造方法及图纸

技术编号：24855686 阅读：32 留言：0更新日期：2020-07-10 19:08

本说明书实施例提供一种多方联合对隐私数据进行降维处理的方法和装置，在隐私数据纵向分布的情况下，第一持有方针对第一原始矩阵进行零均值化得到第一中心矩阵，获取N*N维的非对称正交矩阵，将非对称正交矩阵与第一中心矩阵相乘得到第一隐秘矩阵，将第一隐秘矩阵发送至可信第三方。可信第三方对各个隐秘矩阵进行拼接得到全局隐秘矩阵，全局隐秘矩阵与其转置矩阵相乘得到协方差矩阵，对协方差矩阵进行本征值求解得到降维变换矩阵，对降维变换矩阵进行拆分后得到各个拆分矩阵，并发送至持有方。第一持有方用第一拆分矩阵处理第一原始矩阵得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

全部详细技术资料下载

【技术实现步骤摘要】
多方联合对隐私数据进行降维处理的方法和装置
本说明书一个或多个实施例涉及机器学习领域，尤其涉及多方联合对隐私数据进行降维处理的方法和装置。
技术介绍
机器学习所需要的数据往往会涉及多个平台、多个领域。例如在基于机器学习的商户分类分析场景中，电子支付平台拥有商户的交易流水数据，电子商务平台存储有商户的销售数据，银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题，数据整合面临着很大阻力，如何在保证数据不泄露的前提下将分散在各个平台的数据整合在一起，成为一项挑战。另一方面，随着数据量的增多，各种训练数据的维度变得越来越大。高维度的大量数据尽管可以丰富机器学习的训练样本数据，但是实际上，这些高维数据往往存在一些冗余信息。冗余信息对机器学习效果的帮助十分有限，所造成的高维特征数据有可能引起“维度爆炸”，使得机器学习模型难以处理，影响模型的训练效率。因此，在进行模型训练和使用时，常常对高维样本特征进行降维处理，在尽量不损失信息量的情况下，将其转化为低维特征。主成分分析(Principalcomponentanalysis，PCA)方法，是一种统计分析、简化数据集的方法，它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分。主成分分析可以用于减少数据集的维数，同时保持数据集中对方差贡献最大的特征。因此，在实践中，常常采用PCA方法对高维特征进行降维。然而，PCA方法一般需要针对全部数据进行统一的变换...

【技术保护点】
1.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述第一持有方执行，包括：/n针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；/n获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方；/n计算所述非对称正交矩阵与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；/n从所述可信第三方接收与所述第一持有方对应的第一拆分矩阵；其中，所述第一拆分矩阵为对降维变换矩阵进行拆分后得到，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行拼接得到；/n用所述第一拆分矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。/n

【技术特征摘要】
1.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述第一持有方执行，包括：
针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；
获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方；
计算所述非对称正交矩阵与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；
从所述可信第三方接收与所述第一持有方对应的第一拆分矩阵；其中，所述第一拆分矩阵为对降维变换矩阵进行拆分后得到，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行拼接得到；
用所述第一拆分矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

2.根据权利要求1所述的方法，在得到第一降维矩阵之后，还包括：
利用秘密分享算法，分别与其他持有方将各自的降维矩阵发送至数据需求方，使得所述数据需求方确定对所述N个业务对象的全部属性进行降维处理后的总降维矩阵；所述数据需求方包括所述可信第三方。

3.根据权利要求1所述的方法，其中，所述业务对象为以下之一：用户、商户、商品、事件；所述业务预测分析包括：预测业务对象的分类或回归值。

4.根据权利要求1所述的方法，所述获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方的步骤，包括：
生成N*N维的非对称正交矩阵，并将所述非对称正交矩阵广播至所述第一持有方之外的其他持有方。

5.根据权利要求1所述的方法，所述获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方的步骤，包括：
接收第二持有方广播的N*N维的非对称正交矩阵；其中，所述非对称正交矩阵为所述第二持有方生成。

6.根据权利要求1所述的方法，其中，所述第一原始矩阵中一行对应一个业务对象，一列对应一项属性；
所述用所述第一拆分矩阵处理所述第一原始矩阵包括：用所述第一原始矩阵乘以所述第一拆分矩阵。

7.根据权利要求1所述的方法，其中，所述第一原始矩阵中一行对应一项属性，一列对应一个业务对象；
所述用所述第一拆分矩阵处理所述第一原始矩阵包括：用所述第一拆分矩阵乘以所述第一原始矩阵。

8.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述多个持有方之外的可信第三方执行，包括：
获取多个持有方的隐秘矩阵，并且按照预定的持有方顺序对多个隐秘矩阵进行拼接，得到全局隐秘矩阵；其中，所述第一持有方的第一隐秘矩阵基于N*N维的非对称正交矩阵与第一中心矩阵相乘得到，所述第一中心矩阵基于对所述第一原始矩阵中的每项属性的属性值进行零均值化得到；
计算所述全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；
按照预定的持有方顺序对所述降维变换矩阵进行拆分，得到针对每个持有方的拆分矩阵；
将各个拆分矩阵发送至对应的持有方，使得各个持有方利用各自的拆分矩阵处理其原始矩阵，得到对应的降维矩阵；所述降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

9.根据权利要求8所述的方法，还包括：
接收所述多个持有方利用秘密分享算法分别发送的降维矩阵；
基于接收的多个降维矩阵，确定对所述N个业务对象的全部属性进行降维处理后的总降维矩阵。

10.根据权利要求9所述的方法，其中，所述第一原始矩阵中一行对应一个业务对象，一列对应一项属性；
所述按照预定的持有方顺序对多个隐秘矩阵进行拼接步骤包括，按照预定的持有方顺序对多个隐秘矩阵进行横向拼接。

11.根据权利要求9所述的方法，其中，所述第一原始矩阵中一行对应一项属性，一列对应一个业务对象；
所述按照预定的持有方顺序对多个隐秘矩阵进行拼接步骤包括，按照预定的持有方顺序对多个隐秘矩阵进行纵向拼接。

12.根据权利要求8所述的方法，所述基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵的步骤，包括：
确定所述协方差矩阵的多个本征值和对应的多个本征向量；
从所述多个本征值中，确定值较大的目标维度个本征值，作为目标本征值；
基于所述目标本征值对应的本征向量，形成所述降维变换矩阵。

13.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述方法通过所述第一持有方执行，包括：
通过秘密分享，与其他持有方协同针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；
获取N*n1维的第一正交矩阵部分，所述第一正交矩阵部分是从N*N维的非对称正交矩阵中分拆出的与所述第一持有方对应的矩阵部分，且所述非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；
计算所述第一正交矩阵部分与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；
从所述可信第三方接收与所述第一持有方对应的降维变换矩阵；其中，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行叠加得到；
用所述降维变换矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

14.根据权利要求13所述的方法，所述获取N*n1维的第一正交矩阵部分的步骤，包括：
生成N*N维的非对称正交矩阵；
按照预定的持有方顺序将所述非对称正交矩阵拆分为多个正交矩阵部分；
保留与所述第一持有方对应的N*n1维的第一正交矩阵部分，将其他正交矩阵部分发送给对应的持有方。

15.根据权利要求13所述的方法，所述获取N*n1维的第一正交矩阵部分的步骤，包括：
接收第二持有方发送的N*n1维的第一正交矩阵部分；其中，所述第一正交矩阵部分由所述第二持有方从生成的N*N维的非对称正交矩阵中分拆得到。

16.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属...

【专利技术属性】
技术研发人员：刘颖婷，陈超超，王力，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人