【技术实现步骤摘要】
一种用于纵向联邦场景的多重共线性分析方法
[0001]本专利技术涉及共线性分析
,尤其涉及一种用于纵向联邦场景的多重共线性分析方法。
技术介绍
[0002]纵向联邦学习和多方安全计算场景下,数据使用方在建模或使用数据之前,需要检验各数据特征间的多重共线性,以筛选出更有效的建模数据,使建模结果更加稳定。
[0003]现有的多重共线性分析方法有以下几种缺点:
[0004](1)分析两个数据特征间的相关系数,如皮尔森系数,但该方法只度量了两个数据特征间的相关性,无法同时对多数据特征间的共线性进行度量;
[0005](2)多数据特征间相关性现有的实现技术均存在第三方,将计算过程中的梯度等信息通过第三方进行加工后返回给数据使用者,存在第三方,必然使安全性和隐私性得不到保障;
[0006](3)加密算子固定,没有自适应不同带宽
‑
计算资源比,使得资源利用率不充分。
技术实现思路
[0007]本专利技术为了解决上述技术问题,提供了一种用于纵向联邦场景的多重共线性分析方 ...
【技术保护点】
【技术特征摘要】
1.一种用于纵向联邦场景的多重共线性分析方法,其特征在于,包括以下步骤:S1:数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化;S2:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将每个数据特征对应的权重系数初始化;S3:数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,线性和yb为对应用户数据集x中除了待分析数据特征之外的所有其他数据特征的线性和;数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,线性和ya为对应用户数据集y中所有数据特征的线性和,数据提供方将计算结果发送给数据使用方;S4:数据使用方根据每个用户对应的线性和yb、线性和ya以及待分析数据特征计算出每个用户对应的残差f以及均方误差delta,并将计算出的所有均方误差delta相加得到总均方误差D,如果D<A,则跳转至步骤S6,否则执行步骤S5;S5:数据使用方根据每个用户对应的残差f计算出用户数据集x具有的除了待分析数据特征之外的其他每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值;数据使用方与数据提供方使用加密算子进行加密通信,使数据提供方计算出用户数据集y具有的每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4;S6:数据使用方根据权重系数的最新值计算出每个用户数据集x对应的线性和yb;数据提供方根据权重系数的最新值计算出每个用户数据集y对应的线性和ya,并将计算结果发送给数据使用方;S7:数据使用方根据自身计算出的线性和yb、数据提供方计算出的线性和ya以及待分析数据特征的平均值avg计算出待分析数据特征的方差膨胀系数VIF,根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。2.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S5包括以下步骤:S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方;S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有
噪声的梯度ga_noise并发送给数据提供方;S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4。3.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S1包括以下步骤:数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,具有待分析数据特征的用户有d个,依次编号为1,2
……
d,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,将用户数据集x中的待分析数据特征标记为x1,将用户数据集x中的其他数据特征依次标记为x2、x3……
x
n
,n为用户数据集x中含有的数据特征的数量,n≥2,则编号为i的用户对应的用户数据集为x(i),1≤i≤d,用户数据集x(i)的结构为x(i)={x1(i)、x2(i)、
……
x
n
(i)},数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化,数据特征x
p
对应的权重系数为w
p
,2≤p≤n;所述步骤S2包括以下步骤:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方从数据使用方得到匹配上的用户名称对应的编号,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应...
【专利技术属性】
技术研发人员:倪壮,毛仁歆,刘洋,任江哲,
申请(专利权)人:蓝象智联杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。