一种基于联邦学习的数据分析方法及系统技术方案

技术编号:33145728 阅读:32 留言:0更新日期:2022-04-22 13:57
本发明专利技术公开了一种基于联邦学习的数据分析方法及系统,方法包括:确定数据需求集合与训练模型;将数据需求集合传输至每一数据节点提取训练样本;基于训练样本训练得到每一数据节点的梯度数据,聚合分析得到训练结果,并提取数据特征;将数据特征传输至每一数据节点进行特征匹配,匹配得到每一数据节点中适配于数据特征的近似样本;若存在任一数据节点的训练样本与近似样本一致,对训练结果进行脱敏处理。本发明专利技术实施例中,通过对训练结果提取数据特征,并根据数据特征于训练样本进行匹配,若匹配成功,则证明训练结果存在隐私泄露风险,据此对训练结果进行脱敏,避免诸如推导公开数据溯源原始数据的情况发生,确保数据安全。确保数据安全。确保数据安全。

【技术实现步骤摘要】
一种基于联邦学习的数据分析方法及系统


[0001]本专利技术涉及数据加密与安全防护,尤其涉及一种基于联邦学习的数据分析方法及系统。

技术介绍

[0002]联邦学习是指利用分布式节点模型在各分布式数据节点中进行训练,再通过中心节点模型对分布式节点模型训练得到的梯度函数、损失函数等模型参数进行更新迭代,从而在不对异地数据进行采集挪用的情况下,对各分布式数据节点中的数据进行训练与研究,由于过程中不存在原始数据的交互,因而可提高数据安全性,避免产生隐私泄漏。
[0003]目前,联邦学习主要是通过遵循原始数据原地不动的原则来确保数据安全,并在分布式数据节点先行进行数据加密,剔除可能存在泄密风险的患者信息后再进行训练。但是在进行医学领域研究,特别是在进行专病研究时,具有患者数量少、病理特征显著、关联性强、患者地理分布松散等特点,这使得研究成果与用户的病理特征契合度高,存在通过成果数据实现推导溯源的风险,虽难以发生大规模的数据隐私泄漏事件,但训练过程所遵循的保密原则未能确保数据安全。

技术实现思路

[0004]本专利技术实施例公开一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的数据分析方法,其特征在于,所述方法包括:确定数据需求集合与训练模型;将所述数据需求集合传输至每一数据节点;根据所述数据需求集合,于每一数据节点所存储结构化数据中提取训练样本;采用所述训练模型训练所述训练样本,得到对应于每一数据节点的梯度数据;对每一梯度数据进行聚合分析,得到训练结果;提取所述训练结果的数据特征;将所述数据特征传输至每一数据节点进行特征匹配,匹配得到每一数据节点中适配于所述数据特征的近似样本;若存在任一数据节点的训练样本与近似样本一致,对所述训练结果进行脱敏处理。2.根据权利要求1所述的一种基于联邦学习的数据分析方法,其特征在于,所述对所述训练结果进行脱敏处理,包括:基于所述训练样本,对所述训练结果中每一字段划分关联区间;采用同一偏差指标,对处于强关联区间的字段与处于弱关联区间的字段进行错位偏差,得到偏差结果。其中,所述偏差指标仅分配予中心节点,用以将所述偏差结果还原得到所述训练结果。3.根据权利要求1所述的一种基于联邦学习的数据分析方法,其特征在于,在对所述训练结果进行脱敏处理之后,所述方法还包括:分析每一数据节点所提供训练数据对训练结果的贡献比例;基于所述贡献比例对当次研究收益进行激励分配。4.根据权利要求1或3任一项所述的一种基于联邦学习的数据分析方法,其特征在于,所述方法还包括:对进行脱敏处理的训练结果,在完成激励分配后,对激励进行存蓄;当激励存蓄达到预设脱敏次数后,对存蓄的激励发放至每一数据节点。5.根据权利要求1所述的一种基于联邦学习的数据分析方法,其特征在于,所述方法还包括:当存在新增数据节点接入时,对所述新增数据节点的结构化数据提取识别特征;基于所述识别特征在每一数据节点中识别与所述新增数据节点一致的重复数据。6.一种基于联邦学习的数据分析系统,其特征在于,所述系统包括:构建单元,用于确定数据需求集合与训练模型;传输单元,用于将所述数据需求集合传输至每一数据节点;样本提...

【专利技术属性】
技术研发人员:杨远刘昊李云鹏杨凡麦泽庆郭常占史俊才燕青
申请(专利权)人:健康数据北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1