一种高效的联邦衍生特征逻辑回归建模方法技术

技术编号:33119632 阅读:14 留言:0更新日期:2022-04-17 00:16
本发明专利技术公开了一种高效的联邦衍生特征逻辑回归建模方法。它包括以下步骤:发起方、参与方选取同样的K个样本,利用秘密分享算法计算出衍生特征;发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,并初始化;发起方、参与方配合计算出每个样本对应的预测值yD,并计算出每个样本对应的差值Δy;发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值;重复上述步骤T次,完成逻辑回归模型建模。本发明专利技术可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私。隐私。隐私。

【技术实现步骤摘要】
一种高效的联邦衍生特征逻辑回归建模方法


[0001]本专利技术涉及衍生特征逻辑回归建模
,尤其涉及一种高效的联邦衍生特征逻辑回归建模方法。

技术介绍

[0002]在实际业务中,很多变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用,所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
[0003]特征衍生常用于金融风控场景。目前,发起方、参与方联合建模时,需要发起方的基础数据与参与方的基础数据采用明文方式进行特征衍生,得到明文的衍生特征后,发起方、参与方利用衍生特征、双方的基础数据进行逻辑回归建模,然而这种建模方法采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
[0004]发起方、参与方也可采用《ABY
ꢀ–ꢀ
A Framework for Efficient Mixed

Protocol Secure Two

Party Computation》这篇论文的方法,利用秘密分享算法计算发起方的基础特征和参与方的基础特征的联邦衍生特征,发起方、参与方各自保留对应的密文状态的衍生特征分片,但是,现有的逻辑回归建模方法无法使用密文状态的衍生特征分片。

技术实现思路

[0005]本专利技术为了解决上述技术问题,提供了一种高效的联邦衍生特征逻辑回归建模方法,其可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。
[0006]为了解决上述问题,本专利技术采用以下技术方案予以实现:本专利技术的一种高效的联邦衍生特征逻辑回归建模方法,包括以下步骤:S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集X
A
,样本数据集X
A
中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集X
B
,样本数据集X
B
中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集X
A
中的数据特征、样本数据集X
B
中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<X
C

A
、保存在参与方客户端的与每个样本对应的衍生特征分片<X
C

B
;S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集X
A
中的每个数据特征对应的权重系数、样本数据集X
B
中的每个数据特征对应的权重系数、衍生特征分片<X
C

A
对应的权重系数、衍生特征分片<X
C

B
对应的权重系数;S3:发起方客户端计算出每个样本的样本数据集X
A
对应的预测得分y
A
,参与方客户端计算出每个样本的样本数据集X
B
对应的预测得分y
B
,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分y
C
,发起方客户端根据预测得分
y
A
、预测得分y
B
、预测得分y
C
计算出每个样本对应的预测值y
D
;S4:发起方客户端计算每个样本对应的预测值y
D
减去对应的真实值y
E
得到对应的差值Δy,并将差值Δy发送给参与方客户端;S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

A
对应的权重系数的最新值,并给这些权重系数赋予最新值;参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

B
对应的权重系数的最新值,并给这些权重系数赋予最新值;S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

A
对应的权重系数的最新值,参与方客户端得到样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

B
对应的权重系数的最新值,完成逻辑回归模型建模。
[0007]在本方案中,发起方、参与方选取同样的K个样本用于逻辑回归建模,利用秘密分享算法计算出衍生特征,得到保存在发起方的与每个样本对应的衍生特征分片<X
C

A
、保存在参与方的与每个样本对应的衍生特征分片<X
C

B
。接着,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。发起方、参与方配合计算出每个样本对应的预测值y
D
,从而可以得到每个样本对应的差值Δy,发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,重复上述步骤T次后,发起方得到样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

A
对应的权重系数的最新值,参与方得到样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

B
对应的权重系数的最新值,完成逻辑回归模型建模。
[0008]在整个建模过程中,发起方、参与方的数据都没有明文出库,衍生特征分片<X
C

A
、衍生特征分片<X
C

B
都是密文状态,发起方、参与方都无法获取对方的数据,也无法获取衍生特征的明文值,保护了双方的数据隐私,避免了数据泄露。本方案利用秘密分享算法生成衍生特征,并将秘密分享生成的衍生特征用于逻辑回归建模,计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。本方案的方法适用于风控场景、营销场景,比如,发起方为金融机构,参与方为运营商,金融机构与运营商之间使用专网通信,采用本方案的方法实现联邦特征衍生、联合建模,用于预测金融机构的金融机构用户等级。
[0009]作为优选,所述衍生特征分片<X
C
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高效的联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,其特征在于,包括以下步骤:S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集X
A
,样本数据集X
A
中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集X
B
,样本数据集X
B
中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集X
A
中的数据特征、样本数据集X
B
中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<X
C

A
、保存在参与方客户端的与每个样本对应的衍生特征分片<X
C

B
;S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集X
A
中的每个数据特征对应的权重系数、样本数据集X
B
中的每个数据特征对应的权重系数、衍生特征分片<X
C

A
对应的权重系数、衍生特征分片<X
C

B
对应的权重系数;S3:发起方客户端计算出每个样本的样本数据集X
A
对应的预测得分y
A
,参与方客户端计算出每个样本的样本数据集X
B
对应的预测得分y
B
,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分y
C
,发起方客户端根据预测得分y
A
、预测得分y
B
、预测得分y
C
计算出每个样本对应的预测值y
D
;S4:发起方客户端计算每个样本对应的预测值y
D
减去对应的真实值y
E
得到对应的差值Δy,并将差值Δy发送给参与方客户端;S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

A
对应的权重系数的最新值,并给这些权重系数赋予最新值;参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

B
对应的权重系数的最新值,并给这些权重系数赋予最新值;S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

A
对应的权重系数的最新值,参与方客户端得到样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C

B
对应的权重系数的最新值,完成逻辑回归模型建模。2.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述衍生特征分片<X
C

A
与衍生特征分片<X
C

B
之和为样本数据集X
A
中的某个数据特征与样本数据集X
B
中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。3.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S1包括以下步骤:发起方客户端从自身数据库中采集K个样本对应的样本数据集X
A
,K个样本依次编号为1,2
……
K,每个样本对应的样本数据集X
A
的结构相同,样本数据集X
A
中包含若干个数据特征,将样本数据集X
A
中的数据特征依次标记为X
A1
、X
A2
……
X
An
,n为样本数据集X
A
中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为X
A
(i),1≤i≤K,样本数据集X
A
(i)的结构为X
A
(i)={X
A1
(i)、X
A2
(i)、
……
X
An
(i)},参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集X
B
,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集X
B
的结构相同,样本数据集X
B
中包含若干个数据特征,将样本数据集X
B
中的数据特征依次标记为X
B1
、X
B2
……
X
Bm
,m为样本数据集X
B
中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为X
B
(i),1≤i≤K,样本数据集X
B
(i)的结构为X
B
(i)={X
B1
(i)、X
B2
(i)、
……
X
Bm (i)};发起方客户端、参与方客户端利用秘密分享算法根据样本数据集X
A
中的数据特征、样本数据集X
B
中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<X
C

A
、保存在参与方客户端的与每个样本对应的衍生特征分片<X
C

B
,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<X
C

A
(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<X
C

B (i)。4.根据权利要求3所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2包括以下步骤:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:y=sigmoid(W
A
D
A
+<W
C

A
E
A

【专利技术属性】
技术研发人员:郭梁裴阳毛仁歆石斑
申请(专利权)人:蓝象智联杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1