【技术实现步骤摘要】
面向隐私保护的分布式生存分析方法和系统
[0001]本专利技术涉及生存分析
,具体涉及一种面向隐私保护的分布式生存分析方法
、
系统
、
存储介质和电子设备
。
技术介绍
[0002]生存分析可以对感兴趣事件的生存状态与生存时间进行预测,并由医学领域逐步在其他领域得到了广泛地研究与应用
。
生存状态是指感兴趣事件在研究期间是否发生;生存时间是指从某种起始事件到达感兴趣事件发生所经历的时间跨度
。
与分类方法相比,生存分析考虑了每个个体发生感兴趣事件的时间,可以将感兴趣事件是否发生与其所经历的时间结合起来分析
。
[0003]常见的生存分析方法可以用来描述和比较生存过程,如寿命表法和
Kaplan
‑
Meier
法;或者用来探讨影响生存时间的影响因素
、
预测生存概率,如
Cox
比例风险回归模型
。
但这种生存分析方法大多都是集中式建模的方式,无法适用于分布式的建模场景
。
大数据的发展使得与感兴趣事件相关的潜在有用的特征越来越多,且分布在不同的机构或部门中
。
想要得到更加准确的生存分析模型就需要大量数据,多方建模成为常态
。
但在以往的方案中不论哪种模型,基本上都很少涉及多方建模的分布式场景
。
而且随着法律法规的监管约束与个人隐私的注重,使用生存分析方法在多方建模时的安全问题 ...
【技术保护点】
【技术特征摘要】
1.
一种面向隐私保护的分布式生存分析方法,其特征在于,包括:
S1、
根据已知事件的生存时间确定观察区间,将所述观察区间划分为多个相同起点的预测区间,并结合已知事件的最终生存状态,为每一所述预测区间设置相应的生存状态;
S2、
结合所述生存状态,协同训练每一所述预测区间的二分类模型;
S3、
根据协同训练后的二分类模型,获取待分析事件的生存时间和生存状态
。2.
如权利要求1所述的分布式生存分析方法,其特征在于,所述二分类模型采用分布式逻辑回归模型
。3.
如权利要求2所述的分布式生存分析方法,其特征在于,所述
S2
包括:
S21、
定义
T
个预测区间,
K
个参与方,每一参与方拥有感兴趣事件的部分特征,最后一个参与方拥有事件的生存时间和生存状态;为
T
个模型初始化
T
组系数,每一组对应一个预测区间,协调方采用
Paillier
同态加密方法创建密钥对,并将公钥发送给各个参与方;
S22、
对于每一个模型,第1到
K
‑1个参与方分别在本地计算基于公钥加密得到并发送给下一方,下一方将自己的加密结果与前一方的加密结果进行汇总相加;其中
x
j
为第
j
方的特征向量,
θ
j
为第
j
方的分布系数,,为
θ
j
的转置,表示已加密的信息;
S23、
第
K
个参与方生成计算全局更新量并将其发送给前
K
‑1个参与方;其中
y
为生存状态标签,取1时表示发生感兴趣事件,取0时表示没有发生感兴趣事件;
S24、
各参与方计算并更新梯度信息将加密的掩码加入其中一同发送给协调方;其中
r
j
为第
j
方的掩码信息;
S25、
协调方基于私钥进行解密,并将解密后的信息
g
j
+r
j
发送回各参与方;
S26、
各参与方解除梯度上的掩码,并根据梯度信息
g
j
更新相应模型参数
θ
j
=
S(
θ
j
‑
λ
g
j
,
λαβ
)/(1+
α
(1
‑
β
))
;其中
S(
θ
j
‑
λ
g
j
,
λα...
【专利技术属性】
技术研发人员:王钊,张化雨,蒋翠清,丁勇,陈波,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。