基于隐私保护的多重共线性检测方法、装置及系统制造方法及图纸

技术编号:27936233 阅读:18 留言:0更新日期:2021-04-02 14:16
本说明书实施例提供基于隐私保护的多重共线性检测方案。该多重共线性检测方案由多个成员设备执行,每个成员设备具有本地特征数据。各个成员设备对各自的本地特征数据执行数据对齐来构建出联合特征矩阵,并且协同来执行基于隐私保护的多方矩阵乘法计算,求出联合特征矩阵与其转置矩阵的乘积矩阵,每个成员设备具有乘积矩阵的乘积矩阵分片。然后,各个成员设备使用各自的乘积矩阵分片联合确定乘积矩阵的逆矩阵,每个成员设备具有逆矩阵的逆矩阵分片。随后,各个成员设备使用各自的逆矩阵分片以及本地特征数据确定样本数据的各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据,并根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

【技术实现步骤摘要】
基于隐私保护的多重共线性检测方法、装置及系统
本说明书实施例通常涉及人工智能领域,尤其涉及基于隐私保护的多重共线性检测方法、装置及系统。
技术介绍
机器学习技术被广泛地应用于各种业务应用场景。在业务应用场景中,使用机器学习模型作为业务模型来进行各种业务预测服务,比如,分类预测、业务风险预测等等。在将业务模型应用于业务预测服务之前,需要使用建模数据构建出业务模型。建模数据例如可以是数据提供方收集来用于业务模型建模的业务数据。建模数据通常具有多种维度特征(也可以称为多种维度变量)。建模数据的维度特征作为所构建的业务模型的模型特征或预测特征。在业务模型是回归模型的情况下,在构建业务模型的过程中,可能会出现一些预测特征与其他预测特征相关,即,业务模型的预测特征存在多重共线性。如果业务模型的预测特征之间的多重共线性严重,则会增大回归系数的方差,使得业务模型的建模结果不稳定。此外,建模数据的多重共线性还会大大降低回归模型的可解释性。例如,在业务模型的预测特征之间的多重共线性严重时,多次建模所得到的参数估计值会不同(参数方差较大),并且即使预测特征和标签之间存在显著关系,回归系数也可能并不显著。而且,高度相关预测特征的回归系数在样本之间的差异性很大,甚至会包含错误的符号。回归模型的可解释性是业务模型建模的重要考量指标,尤其是金融领域的业务模型建模。此外,在业务模型建模时,为了提升业务模型的建模精度,会使用多平台联合建模方案,即,使用多个建模参与方提供的建模数据来联合构建业务模型。多个建模参与方所提供的建模数据产生于相似应用场景,难免会产生命名不同但实际共线性的建模特征,从而使得业务模型的建模特征很大可能会存在多重共线性。此外,多个建模参与方提供的建模数据是隐私数据,在进行多方联合建模时,需要保证各个建模参与方的建模数据的隐私安全。由此,在构建回归模型之前,需要对多个建模参与方提供的建模数据进行基于隐私保护的多重共线性检测。
技术实现思路
鉴于上述,本说明书实施例提供一种基于隐私保护的多重共线性检测方法、装置及系统,其能够在确保各个成员设备的本地特征数据的隐私安全的情况下实现多重共线性检测。根据本说明书实施例的一个方面,提供一种基于隐私保护的多重共线性检测方法,所述方法由至少两个成员设备中的一个成员设备执行,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述方法包括:与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得出所述联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片;与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。可选地,在上述方面的一个示例中,与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片包括:与其余成员设备一起使用牛顿迭代法来根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片,其中,在每次牛顿迭代过程中,各个成员设备的乘积矩阵分片之间的矩阵乘积基于秘密共享矩阵计算实现。可选地,在上述方面的一个示例中,各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据或者基于数据垂直切分的本地特征数据。可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据垂直切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:使用本地特征数据确定所述成员设备的各个属性特征的特征方差;以及与其余成员设备一起,使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式确定出各个属性特征i的方差膨胀因子,每个成员设备具有各个属性特征i的方差膨胀因子的分片数据,其中,是联合特征矩阵,是联合特征矩阵的转置矩阵,表示逆矩阵的对角线上的第i个元素,是属性特征i的特征方差,n是样本数据总数,与的乘积通过各个成员设备使用各自的逆矩阵分片中的对应分片元素以及各自具有的特征方差执行秘密共享乘法得到,其余成员设备具有的属性特征的特征方差由该成员设备根据本地特征数据确定。可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:使用本地特征数据确定各个属性特征i的特征方差在所述成员设备处的特征方差分片;以及与其余成员设备一起使用各自的逆矩阵分片以及各个属性特征i的特征方差分片,根据公式确定出各个属性特征i的方差膨胀因子,每个成员设备具有各个属性特征i的方差膨胀因子的分片数据,其中,是联合特征矩阵,是联合特征矩阵的转置矩阵,表示逆矩阵中的对角线上的第i个元素,n是样本数据总数,与的乘积通过各个成员设备使用各自的逆矩阵分片中的对应分片元素以及各自的特征方差分片执行秘密共享乘法得到,其余成员设备的特征方差分片通过使用各自的本地特征数据确定出。可选地,在上述方面的一个示例中,所述基于隐私保护的多方矩阵乘法计算包括下述多方矩阵乘法中的一种:多方分块矩阵乘法或者多方秘密共享转置矩阵乘法。可选地,在上述方面的一个示例中,与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵可以包括:与其余成员设备一起采用安全交集计算协议来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。可选地,在上述方面的一个示例中,与其余成员设备一起,根据各自具有的各个本地属性特征的方差膨胀因子的分片数据来确定多重共线性可以包括:与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据,重构出各个属性特征的方差膨胀因子;在所重构定出的属性特征的方差膨胀因子小于第一参考值时,确定针对该属性特征不存在多重共线性;在所重构出的属性特征的方差膨胀因子不小于第一参考值且小于第二参考值时,确定针对该属性特征存在第一级别多重共线性;以及在所重构出的属性特征的方差膨胀因子不小于第二参考值时,确定针对该属性特征存在第二级别多重共线性。可选地,在上述方面的一个示例中,各个成员设备的本地特征数据是回归模型的建模数据,所述方法还可以包括:在确定针对属性特征存在所述第二级别多重共线性时,从所述回归模型的建模特征中去除该属性特征,或者将该属性特征与所述回归模型的其它相关建模特征组合为单一建模特征。根据本说明书的实施例的另一方面,提供一种基于隐私保护的多重共线性检测装置,所述多重共线性检测装置应用于至少两个成员设备中的一个成员设备,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述多重共线性检测装置包本文档来自技高网
...

【技术保护点】
1.一种基于隐私保护的多重共线性检测方法,所述方法由至少两个成员设备中的一个成员设备执行,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述方法包括:/n与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;/n与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得到所述联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片;/n与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;/n与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及/n与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。/n

【技术特征摘要】
1.一种基于隐私保护的多重共线性检测方法,所述方法由至少两个成员设备中的一个成员设备执行,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述方法包括:
与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;
与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得到所述联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片;
与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;
与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及
与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。


2.如权利要求1所述的方法,其中,与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片包括:
与其余成员设备一起使用牛顿迭代法来根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片,其中,在每次牛顿迭代过程中,各个成员设备的乘积矩阵分片之间的矩阵乘积基于秘密共享矩阵计算实现。


3.如权利要求1所述的方法,其中,各个成员设备的本地特征数据包括基于数据垂直切分的本地特征数据或者基于数据水平切分的本地特征数据。


4.如权利要求3所述的多重共线性检测方法,其中,在各个成员设备的本地特征数据包括基于数据垂直切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:
使用本地特征数据确定所述成员设备的各个属性特征的特征方差;以及
与其余成员设备一起,使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式确定出各个属性特征i的方差膨胀因子,每个成员设备具有各个属性特征i的方差膨胀因子的分片数据,其中,是联合特征矩阵,是联合特征矩阵的转置矩阵,表示逆矩阵的对角线上的第i个元素,是属性特征i的特征方差,n是样本数据总数,与的乘积通过各个成员设备使用各自的逆矩阵分片中的对应分片元素以及各自具有的特征方差执行秘密共享乘法得到,其余成员设备具有的属性特征的特征方差由该成员设备根据本地特征数据确定。


5.如权利要求3所述的多重共线性检测方法,其中,在各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:
使用本地特征数据确定各个属性特征i的特征方差在所述成员设备处的特征方差分片;以及
与其余成员设备一起使用各自的逆矩阵分片以及各个属性特征i的特征方差分片,根据公式确定出各个属性特征i的方差膨胀因子,每个成员设备具有各个属性特征i的方差膨胀因子的分片数据,其中,是联合特征矩阵,是联合特征矩阵的转置矩阵,表示逆矩阵中的对角线上的第i个元素,n是样本数据总数,与的乘积通过各个成员设备使用各自的逆矩阵分片中的对应分片元素以及各自的特征方差分片执行秘密共享乘法得到,其余成员设备的特征方差分片通过使用各自的本地特征数据确定出。


6.如权利要求1所述的多重共线性检测方法,其中,所述基于隐私保护的多方矩阵乘法计算包括下述多方矩阵乘法中的一种:多方分块矩阵乘法或者多方秘密共享转置矩阵乘法。


7.如权利要求1所述的多重共线性检测方法,其中,与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵包括:
与其余成员设备一起采用安全交集计算协议来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。


8.如权利要求1所述的多重共线性检测方法,其中,与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性包括:
与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据,重构出各个属性特征的方差膨胀因子;
在所重构出的属性特征的方差膨胀因子小于第一参考值时,确定针对该属性特征不存在多重共线性;
在所重构出的属性特征的方差膨胀因子不小于第一参考值且小于第二参考值时,确定针对该属性特征存在第一级别多重共线性;以及
在所重构出的属性特征的方差膨胀因子不小于第二参考值时,确定针对该属性特征存在第二级别多重共线性。


9.如权利要求8所述的多重共线性检测方法,其中,各个成员设备的本地特征数据是回归模型的建模数据,所述方法还包括:
在确定针对属性特征存在所述第二级别多重共线性时,从所述回归模型的建模特征中去除该属性特征,或者将该属性特征与所述回归模型的其它相关建模特征组合为单一建模特征。


10.一种基于隐私保护的多重共线性检测装置,所述多重...

【专利技术属性】
技术研发人员:刘颖婷陈超超周俊王力
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1