【技术实现步骤摘要】
一种高效的联邦衍生特征逻辑回归建模方法
[0001]本专利技术涉及衍生特征逻辑回归建模
,尤其涉及一种高效的联邦衍生特征逻辑回归建模方法。
技术介绍
[0002]在实际业务中,很多变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用,所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
[0003]特征衍生常用于金融风控场景。目前,发起方、参与方联合建模时,需要发起方的基础数据与参与方的基础数据采用明文方式进行特征衍生,得到明文的衍生特征后,发起方、参与方利用衍生特征、双方的基础数据进行逻辑回归建模,然而这种建模方法采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
[0004]发起方、参与方也可采用《ABY
ꢀ–ꢀ
A Framework for Efficient Mixed
‑
Protocol Secure Two
‑
Party Computation》这篇论文的方法,利用秘密分享算法计算发起方的基础特征和参与方的基础特征的联邦衍生特征,发起方、参与方各自保留对应的密文状态的衍生特征分片,但是,现有的逻辑回归建模方法无法使用密文状态的衍生特征分片。
技术实现思路
[0005]本专利技术为了解决上述技术问题,提供了一种高效的 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种高效的联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,其特征在于,包括以下步骤:S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集X
A
,样本数据集X
A
中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集X
B
,样本数据集X
B
中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集X
A
中的数据特征、样本数据集X
B
中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<X
C
>
A
、保存在参与方客户端的与每个样本对应的衍生特征分片<X
C
>
B
;S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集X
A
中的每个数据特征对应的权重系数、样本数据集X
B
中的每个数据特征对应的权重系数、衍生特征分片<X
C
>
A
对应的权重系数、衍生特征分片<X
C
>
B
对应的权重系数;S3:发起方客户端计算出每个样本的样本数据集X
A
对应的预测得分y
A
,参与方客户端计算出每个样本的样本数据集X
B
对应的预测得分y
B
,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分y
C
,发起方客户端根据预测得分y
A
、预测得分y
B
、预测得分y
C
计算出每个样本对应的预测值y
D
;S4:发起方客户端计算每个样本对应的预测值y
D
减去对应的真实值y
E
得到对应的差值Δy,并将差值Δy发送给参与方客户端;S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C
>
A
对应的权重系数的最新值,并给这些权重系数赋予最新值;参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C
>
B
对应的权重系数的最新值,并给这些权重系数赋予最新值;S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集X
A
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C
>
A
对应的权重系数的最新值,参与方客户端得到样本数据集X
B
中的每个数据特征对应的权重系数的最新值、衍生特征分片<X
C
>
B
对应的权重系数的最新值,完成逻辑回归模型建模。2.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述衍生特征分片<X
C
>
A
与衍生特征分片<X
C
>
B
之和为样本数据集X
A
中的某个数据特征与样本数据集X
B
中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。3.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S1包括以下步骤:发起方客户端从自身数据库中采集K个样本对应的样本数据集X
A
,K个样本依次编号为1,2
……
K,每个样本对应的样本数据集X
A
的结构相同,样本数据集X
A
中包含若干个数据特征,将样本数据集X
A
中的数据特征依次标记为X
A1
、X
A2
……
X
An
,n为样本数据集X
A
中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为X
A
(i),1≤i≤K,样本数据集X
A
(i)的结构为X
A
(i)={X
A1
(i)、X
A2
(i)、
……
X
An
(i)},参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集X
B
,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集X
B
的结构相同,样本数据集X
B
中包含若干个数据特征,将样本数据集X
B
中的数据特征依次标记为X
B1
、X
B2
……
X
Bm
,m为样本数据集X
B
中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为X
B
(i),1≤i≤K,样本数据集X
B
(i)的结构为X
B
(i)={X
B1
(i)、X
B2
(i)、
……
X
Bm (i)};发起方客户端、参与方客户端利用秘密分享算法根据样本数据集X
A
中的数据特征、样本数据集X
B
中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<X
C
>
A
、保存在参与方客户端的与每个样本对应的衍生特征分片<X
C
>
B
,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<X
C
>
A
(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<X
C
>
B (i)。4.根据权利要求3所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2包括以下步骤:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:y=sigmoid(W
A
D
A
+<W
C
>
A
E
A
技术研发人员:郭梁,裴阳,毛仁歆,石斑,
申请(专利权)人:蓝象智联杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。