一种基于联邦迁移学习的科研数据管理方法及系统技术方案

技术编号:37974442 阅读:10 留言:0更新日期:2023-06-30 09:49
本发明专利技术公开了一种基于联邦迁移学习的科研数据管理方法及系统,包括数据采集模块获取各业务系统数据;数据预处理模块采集的各业务系统数据转换成需要的格式,进行数据清洗、纠正和去除异常值;数据特征提取模块根据数据库表的关键属性,进行分层抽样,形成字符型数据的特征向量;基于联邦迁移学习架构,构建数据分类分级模型;在训练过程中添加噪声,得到具有差分隐私保护的深度学习模型,使得在使用该模型进行预测时能够保护数据隐私。本发明专利技术在提升模型效果的同时保证数据的安全。升模型效果的同时保证数据的安全。升模型效果的同时保证数据的安全。

【技术实现步骤摘要】
一种基于联邦迁移学习的科研数据管理方法及系统


[0001]本专利技术涉及一种基于联邦迁移学习的科研数据管理方法及系统,属于数据治理


技术介绍

[0002]科研管理工作是推动企业科技发展和科研资源调配的核心手段,企业科研管理数据类型多、数据量大,涵盖项目管理、产研融合、人力资源、成果转化、财务等多各业务领域,产生大量的结构化、半结构化、非结构化专业数据。当前企业科研管理存在各业务系统信息不对称、数据互联互通难、数据不完备、领域跨度大等复杂挑战,严重阻碍了科研数据的集成共享和创新应用。企业科研管理亟须打通系统间壁垒,促进数据治理、数据共享、数据沉淀,为决策提供支持,加速企业数字化转型。

技术实现思路

[0003]专利技术目的:提供一种基于联邦迁移学习的科研数据管理方法及系统在提升模型效果的同时保证数据的安全。
[0004]技术方案:一种基于联邦迁移学习的科研数据管理方法,包括以下步骤:
[0005]步骤1:数据采集模块获取科研管理业务各部门数据,传入数据预处理模块;
[0006]步骤2:数据预处理模块将数据采集模块采集的科研管理业务各部门数据,进行数据清洗、纠正和去除异常值,将处理后的数据传入数据特征提取模块;
[0007]步骤3:数据特征提取模块根据数据库表的关键属性,进行分层抽样,提取字符型数据字符串的长度分布特征和字符分布特征,利用自然语言处理方法,提取字符串的词向量,并进行命名实体识别,形成科研管理业务各部门数据特征值;
[0008]步骤4:根据域、模块、活动三级目录,构建数据分类目录体系;对已分类数据按照安全属性被破坏后造成的影响进行分级,根据不同数据集的预置内容敏感度程度构建数据敏感度分级目录体系;
[0009]步骤5:基于联邦迁移学习分布式架构,采用残差卷积神经网络,将科研管理业务系统的数据特征值作为输入,将数据分类目录中数据类别作为数据分类模型输出,将数据敏感度分级目录中数据敏感度级别作为数据分级模型输出,训练数据分类模型和数据分级模型,训练过程中采用自适应分配差分隐私预算的差分隐私算法对模型加噪,使得在使用模型进行预测时能够保护数据隐私;
[0010]步骤6:将待测数据输入数据分类模型、数据分级模型,得出相应的分类、分级结果,根据不同数据的分类分级结果,采用不同的隐私预算对经过训练的数据集进行加噪后发布得到脱敏脱密后的数据集。
[0011]进一步的,所述步骤3包括:
[0012]步骤3.1:提取字符串的字符模式分布特征,使用预先设置的正则表达式,匹配字符串是否符合正则表达式;
[0013]步骤3.2:使用自然语言处理技术,对字符串进行分词后使用One

hot、TFIDF、Word2Vec技术提取词向量,构造该字段的文本特征向量。
[0014]进一步的,所述步骤5包括:
[0015]步骤5.1:数据归一化处理
[0016]将数据集中的数据分为训练集和测试集,通过最大最小法,对训练集和测试集中的数据进行归一化处理,计算公式为:
[0017][0018]其中数据X
k
与该列的最小值Xmin作差,再除以极差Xmax—Xmin,将所有数据转化为[0,1]之间的数,以取消各维数据之间的数量级差别;
[0019]步骤5.2:构建神经网络模型
[0020]BP神经网络的神经元激励函数选用线性整流函数ReLU,损失函数选用距离损失函数MSE,求预测值y
i
与真实值之间距离的平方和,公式如下:
[0021][0022]数据分类模型的输入层节点数为进行数据分类的数据维度数,输出层节点数为数据类别数;数据分级模型的输入层节点数为进行数据分级的数据维度数,输出层节点数为敏感度等级数;
[0023]步骤5.3:将步骤5.1得到的训练集输入步骤5.2构建的神经网络模型中进行训练,采用梯度下降算法对网络进行迭代更新,梯度下降算法的公式为:
[0024][0025]其中,θ
t
为第t次迭代时神经网络的参数集合;I
r
为网络学习率,公式为
[0026][0027]J(θ
t
)为损失函数,迭代训练完成后,将测试集的数据输入到训练好的神经网络中,根据输出预测结果与实际是否一致判断分类是否正确;
[0028]步骤5.4:所述自适应分配隐私预算的差分隐私算法为:经过步骤5.1将数据归一化后,根据数据集的大小为每个科研管理业务部门的训练模型设置不同强度的隐私预算,数据量小的数据集的全局敏感性大,设置较大的隐私预算,以此降低噪音水平;数据量大的数据集的全局敏感性小,设置较小的隐私预算。数据集大小σ与隐私预算ε的对应关系为:ε=2

σ

[0029]进一步的,所述步骤6包括:
[0030]步骤6.1:初始化各部门训练模型损失函数、噪声规模、学习速率的参数,参数包括:损失函数L,数据集S(j),辅助模型h
j
,批量大小B
j
,噪声规模σ
j
,学习速率γ
j

[0031]步骤6.2:第j个部门模型训练的初始化模型为W
j
,W
j
=h
j
,采用第j个部门数据集I进行训练,数据集大小为B
j
,通过随机梯度下降法更新梯度的公式为:
[0032][0033]其中,γ
k
为学习率,为第j个部门在第h次训练时的训练参数,f
j
为第j个部门的损失函数;
[0034]步骤6.3:训练完成后,对梯度进行标准化处理:
[0035][0036]其中,W
k
为参与训练的各部门模型初始权重参数,为第j个部门模型在第k次训练时的训练参数;
[0037]步骤6.4:对梯度加噪,公式为:
[0038][0039]其中,为第j个客户端在第k次训练时的训练参数,N(0,r*σ2*I)为正态分布噪声,r为参与训练的部门数据集数量,σ为隐私预算,I为部门的数据集;
[0040]步骤6.5:各部门模型完成本轮训练后,将神经网络参数上传至中央服务端,中央服务端对收到的本轮参与训练的所有客户端的更新参数进行聚合,对全局参数进行更新,将更新后的参数发送到参与本轮训练的各部门;
[0041]步骤6.6:采用训练好的神经网络模型对数据集进行分类分级:不同敏感度级别数据的敏感程度不同,对不同敏感度级别的数据匹配相应的隐私预算,加噪后发布。特高敏感属性组、高敏感组、中敏感属性组和低敏感属性组分别对应的隐私保护预算为0.7,0.5,0.3,0.1。
[0042]一种基于联邦迁移学习的科研数据管理系统,包括数据采集模块、数据预处理模块、数据特征提取模块、数据分类分级模块和数据脱敏脱密模块;
[0043]所述数据采集模块:获取项目管理、科本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦迁移学习的科研数据管理方法,其特征在于,包括以下步骤:步骤1:数据采集模块获取科研管理业务各部门数据,传入数据预处理模块;步骤2:数据预处理模块将数据采集模块采集的科研管理业务各部门数据,进行数据清洗、纠正和去除异常值,将处理后的数据传入数据特征提取模块;步骤3:数据特征提取模块根据数据库表的关键属性,进行分层抽样,提取字符型数据字符串的长度分布特征和字符分布特征,利用自然语言处理方法,提取字符串的词向量,并进行命名实体识别,形成科研管理业务各部门数据特征值;步骤4:根据域、模块、活动三级目录,构建数据分类目录体系;对已分类数据按照安全属性被破坏后造成的影响进行分级,根据不同数据集的预置内容敏感度程度构建数据敏感度分级目录体系;步骤5:基于联邦迁移学习分布式架构,采用残差卷积神经网络,将科研管理业务系统的数据特征值作为输入,将数据分类目录中数据类别作为数据分类模型输出,将数据敏感度分级目录中数据敏感度级别作为数据分级模型输出,训练数据分类模型和数据分级模型,训练过程中采用自适应分配差分隐私预算的差分隐私算法对模型加噪,使得在使用模型进行预测时能够保护数据隐私;步骤6:将待测数据输入数据分类模型、数据分级模型,得出相应的分类、分级结果,根据不同数据的分类分级结果,采用不同的隐私预算对经过训练的数据集进行加噪后发布得到脱敏脱密后的数据集。2.根据权利要求1所述的一种基于联邦迁移学习的科研数据管理方法,其特征在于,所述步骤3包括:步骤3.1:提取字符串的字符模式分布特征,使用预先设置的正则表达式,匹配字符串是否符合正则表达式;步骤3.2:使用自然语言处理技术,对字符串进行分词后使用One

hot、TFIDF、Word2Vec技术提取词向量,构造该字段的文本特征向量。3.根据权利要求1所述的一种基于联邦迁移学习的科研数据管理方法,其特征在于,所述步骤5包括:步骤5.1:数据归一化处理将数据集中的数据分为训练集和测试集,通过最大最小法,对训练集和测试集中的数据进行归一化处理,计算公式为:其中数据X
k
与该列的最小值Xmin作差,再除以极差Xmax—Xmin,将所有数据转化为[0,1]之间的数,以取消各维数据之间的数量级差别;步骤5.2:构建神经网络模型BP神经网络的神经元激励函数选用线性整流函数ReLU,损失函数选用距离损失函数MSE,求预测值y
i
与真实值之间距离的平方和,公式如下:
数据分类模型的输入层节点数为进行数据分类的数据维度数,输出层节点数为数据类别数;数据分级模型的输入层节点数为进行数据分级的数据维度数,输出层节点数为敏感度等级数;步骤5.3:将步骤5.1得到的训练集输入步骤5.2构建的神经网络模型中进行训练,采用梯度下降算法对网络进行迭代更新,梯度下降算法的公式为:其中,θ
t
为第t次迭代时神经网络的参数集合;I
r
为网络学习率,公式为J(θ
t
)为损失函数,迭代训练完成后,将测试集的数据输入到训练好的神经网络中,根据输出预测结果与实际是否一致判断分类是否正确;步骤5.4:所述自适应分配隐私预算的差分隐私算法为:经过步骤5.1将数据归一化后,根据数据集的大小为每个科研管理业务部门的训练模型设置不同强度的隐私预算,数据量小的数据集的全局敏感性大,设置较大的隐私预算,以此降低噪音水平;数据量大的数据集的全局敏感性小,设置较小的隐私预算。4.根据权利要求1所述的一种基于联邦迁移学习的科研数据管理方法,其特征在于,所述步骤6包括:步骤6.1:初始化各部门训练模型损失函数、噪声规模、学习速率的参数,参数包括:损失函数L,数据集S(j),辅助模型h
j
,批量大小B
j
,噪声规模σ
j
,学习速率γ
j
;步骤6.2:第j个部门模型训练的初始化模型为W
j
,W
j
=h
j
,采用第j个部门数据集I进行训练,数据集大小为B
j
,通过随机梯度下降法更新梯度的公式为:其中,γ
k
为学习率,为第j个部门在第h次训练时的训练参数,f
j
为第j个部门的损失函数;步骤6.3:训练完成后,对梯度进行标准化处理:其中,W
k
为参与训练的各部门模型初始权重参数,为第j个部门模型在第k次训练时的训练参数;步骤6.4:对梯度加噪,公式为:其中,为第j个客户端在第k次训练时的训练参数,N(0,r*σ2*I)为正态分布噪声,r为参与训练的部门数据集数量,σ为隐私预算,I为部门的数据集;步骤6.5:各部门模型完成本轮训练后,将神经网络参数上传至中央服务端,中央服务端对收到的本轮参与训练的所有客户端的更新参数进行聚合,对全局参数进行更新,将更新后的参数发送到参与本轮训练的各部门;
步骤6.6:采用训练好的神经网络模型对...

【专利技术属性】
技术研发人员:徐舒徐艺郭旭周顾勇许小伟张跃刘思娴朱鹏孙昊
申请(专利权)人:南京熊猫信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1