面向隐私保护的分布式生存分析方法和系统技术方案

技术编号:39835698 阅读:7 留言:0更新日期:2023-12-29 16:19
本发明专利技术提供一种面向隐私保护的分布式生存分析方法

【技术实现步骤摘要】
面向隐私保护的分布式生存分析方法和系统


[0001]本专利技术涉及生存分析
,具体涉及一种面向隐私保护的分布式生存分析方法

系统

存储介质和电子设备


技术介绍

[0002]生存分析可以对感兴趣事件的生存状态与生存时间进行预测,并由医学领域逐步在其他领域得到了广泛地研究与应用

生存状态是指感兴趣事件在研究期间是否发生;生存时间是指从某种起始事件到达感兴趣事件发生所经历的时间跨度

与分类方法相比,生存分析考虑了每个个体发生感兴趣事件的时间,可以将感兴趣事件是否发生与其所经历的时间结合起来分析

[0003]常见的生存分析方法可以用来描述和比较生存过程,如寿命表法和
Kaplan

Meier
法;或者用来探讨影响生存时间的影响因素

预测生存概率,如
Cox
比例风险回归模型

但这种生存分析方法大多都是集中式建模的方式,无法适用于分布式的建模场景

大数据的发展使得与感兴趣事件相关的潜在有用的特征越来越多,且分布在不同的机构或部门中

想要得到更加准确的生存分析模型就需要大量数据,多方建模成为常态

但在以往的方案中不论哪种模型,基本上都很少涉及多方建模的分布式场景

而且随着法律法规的监管约束与个人隐私的注重,使用生存分析方法在多方建模时的安全问题逐渐变得不能被忽视

联邦学习是一种专门解决数据隐私保护的分布式加密机器学习模式,但现有的联邦学习方法大多是针对分类问题的,对于生存分析问题并不适用

同时,在多方联合建模的过程中,多源数据之间的冗余和过拟合问题也需要考虑

特征的冗余会使一些无用甚至有害的特征加入到模型中,损害模型的预测性能

而过拟合则会导致模型在未见过的数据上面表现不佳

[0004]鉴于此,有必要提供一种面向隐私保护的分布式多方建模的生存分析方案,实现对感兴趣事件是否发生和发生时间同时预测


技术实现思路

[0005](

)
解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种面向隐私保护的分布式生存分析方法

系统

存储介质和电子设备,解决了无法同时预测感兴趣事件是否发生和发生时间的技术问题

[0007](

)
技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种面向隐私保护的分布式生存分析方法,包括:
[0010]S1、
根据已知事件的生存时间确定观察区间,将所述观察区间划分为多个相同起点的预测区间,并结合已知事件的最终生存状态,为每一所述预测区间设置相应的生存状态;
[0011]S2、
结合所述生存状态,协同训练每一所述预测区间的二分类模型;
[0012]S3、
根据协同训练后的二分类模型,获取待分析事件的生存时间和生存状态

[0013]优选的,所述二分类模型采用分布式逻辑回归模型

[0014]优选的,所述
S2
包括:
[0015]S21、
定义
T
个预测区间,
K
个参与方,每一参与方拥有感兴趣事件的部分特征,最后一个参与方拥有事件的生存时间和生存状态;
[0016]为
T
个模型初始化
T
组系数,每一组对应一个预测区间,协调方采用
Paillier
同态加密方法创建密钥对,并将公钥发送给各个参与方;
[0017]S22、
对于每一个模型,第1到
K
‑1个参与方分别在本地计算基于公钥加密得到并发送给下一方,下一方将自己的加密结果与前一方的加密结果进行汇总相加;
[0018]其中
x
j
为第
j
方的特征向量,
θ
j
为第
j
方的分布系数,,为
θ
j
的转置,表示已加密的信息;
[0019]S23、

K
个参与方生成计算全局更新量并将其发送给前
K
‑1个参与方;
[0020]其中
y
为生存状态标签,取1时表示发生感兴趣事件,取0时表示没有发生感兴趣事件;
[0021]S24、
各参与方计算并更新梯度信息将加密的掩码加入其中一同发送给协调方;其中
r
j
为第
j
方的掩码信息;
[0022]S25、
协调方基于私钥进行解密,并将解密后的信息
g
j
+r
j
发送回各参与方;
[0023]S26、
各参与方解除梯度上的掩码,并根据梯度信息
g
j
更新相应模型参数
θ
j

S(
θ
j

λ
g
j
,
λαβ
)/(1+
α
(1

β
))

[0024]其中
S(
θ
j

λ
g
j
,
λαβ
)
为软阈值函数,
α
为损失函数与正则化之间的调节因子,
β

L1

L2
范数之间的调节因子,
λ
是学习率;
[0025]S27、
重复执行
S22

26,
直到达到最大迭代次数,获取模型参数
θ
(t)
;其中
θ
(t)
为第
t
个分布式逻辑回归模型的参数,
t

1,2,

,T。
[0026]优选的,所述
S3
包括:
[0027]将所述待分析事件的观察区间划分为多个预测区间;
[0028]根据协同训练的模型参数
θ
(t)
,将各个参与方各自特征向量
x
j
与参数向量
θ
j
相乘
,
并基于公钥加密发送给下一方,直到第
K
个参与方得到代入到逻辑回归模型的泰勒展开式中获取该预测区间的生存概率;同理获取其他预测区间的生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向隐私保护的分布式生存分析方法,其特征在于,包括:
S1、
根据已知事件的生存时间确定观察区间,将所述观察区间划分为多个相同起点的预测区间,并结合已知事件的最终生存状态,为每一所述预测区间设置相应的生存状态;
S2、
结合所述生存状态,协同训练每一所述预测区间的二分类模型;
S3、
根据协同训练后的二分类模型,获取待分析事件的生存时间和生存状态
。2.
如权利要求1所述的分布式生存分析方法,其特征在于,所述二分类模型采用分布式逻辑回归模型
。3.
如权利要求2所述的分布式生存分析方法,其特征在于,所述
S2
包括:
S21、
定义
T
个预测区间,
K
个参与方,每一参与方拥有感兴趣事件的部分特征,最后一个参与方拥有事件的生存时间和生存状态;为
T
个模型初始化
T
组系数,每一组对应一个预测区间,协调方采用
Paillier
同态加密方法创建密钥对,并将公钥发送给各个参与方;
S22、
对于每一个模型,第1到
K
‑1个参与方分别在本地计算基于公钥加密得到并发送给下一方,下一方将自己的加密结果与前一方的加密结果进行汇总相加;其中
x
j
为第
j
方的特征向量,
θ
j
为第
j
方的分布系数,,为
θ
j
的转置,表示已加密的信息;
S23、

K
个参与方生成计算全局更新量并将其发送给前
K
‑1个参与方;其中
y
为生存状态标签,取1时表示发生感兴趣事件,取0时表示没有发生感兴趣事件;
S24、
各参与方计算并更新梯度信息将加密的掩码加入其中一同发送给协调方;其中
r
j
为第
j
方的掩码信息;
S25、
协调方基于私钥进行解密,并将解密后的信息
g
j
+r
j
发送回各参与方;
S26、
各参与方解除梯度上的掩码,并根据梯度信息
g
j
更新相应模型参数
θ
j

S(
θ
j

λ
g
j
,
λαβ
)/(1+
α
(1

β
))
;其中
S(
θ
j

λ
g
j
,
λα...

【专利技术属性】
技术研发人员:王钊张化雨蒋翠清丁勇陈波
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1