基于隐私保护的气动力预测方法以及数据挖掘系统技术方案

技术编号:32270828 阅读:19 留言:0更新日期:2022-02-12 19:34
本发明专利技术公开了一种基于隐私保护的气动力预测方法,包括:步骤一,各参与方,在本地的原数据文件集中通过添加服从正态分布的噪声,得到带有扰动的数据集;步骤二,各参与方根据扰动数据集计算局部非线性核;步骤三,所有参与方将计算得到局部非线性核设置为共享,以使基于共享的局部非线性核计算对应的全局核;步骤四,基于得到的全局核函数求解最优化问题,得到参数的最优解;步骤五,利用步骤四所得到的参数最优解建立预测模型,进行气动力预测。本发明专利技术提供一种基于隐私保护的气动力预测方法,通过在分布式系统中,每个节点都添加了噪声,生成带有扰动的数据集和带有扰动的局部核。外部节点不能得到该节点的原始数据,起到隐私保护的作用。护的作用。护的作用。

【技术实现步骤摘要】
基于隐私保护的气动力预测方法以及数据挖掘系统


[0001]本专利技术涉及数据挖掘领域。更具体地说,本专利技术涉及一种采用分布式环境进行保护隐私前提下进行回归预测的气动力预测方法以及数据挖掘系统。

技术介绍

[0002]随着大数据的发展,各行各业每时每刻都在产生和存储大量数据,数据的高度集中与共享为组织间的合作与研究提供了极大的便利,与此同时,也增加了隐私信息泄露的风险。数据挖掘是一种极其强大的数据分析工具,它借助各种数据挖掘算法,能够发现数据中潜在有用的知识和规律,甚至能够挖掘出隐藏在数据背后的巨大经济和政治利益。隐私保护数据挖掘是数据挖掘领域的一个研究分支,将数据挖掘技术与隐私保护技术有机地结合起来,融合了数据库、人工智能、模式识别、机器学习等多个领域的知识技术。隐私保护数据挖掘的主要目的是在隐私数据或敏感规则的合理保护前提下,尽可能得到更精确的数据挖掘结果。
[0003]原始数据隐私保护的主要思想是通过预定义的变换来改变原始数据集,并将变换后的数据提供给挖掘者进行数据挖掘。这种思想为隐私保护数据挖掘沿用。因此,如何提供一种保护原始数据集的数据挖掘方法及系统,以解决现有技术中隐私数据或信息容易泄露,信息保密程度不高等缺陷,实已成为本领域从业者需要解决的技术问题。
[0004]在气动领域中,当需要多方合作计算时,一些重要的数据不便于直接被第三方使用,存在数据泄漏问题。
[0005]现有技术中,也有对数据进行隐私保护的方法,如专利名称为:《一种基于医疗大数据的隐私保护数据挖掘系统及方法》,其重点在于构建大数据医疗系统,保证隐私数据不会被恶意第三方获取,但在验证正确的情况下,省级区域的云平台可以给下级区域平台发送医疗数据,即区域平台之间数据有交互,隐私保护效果达不到要求;
[0006]另外,又如专利名称为《一种保护原交易数据集关联规则的数据挖掘方法及系统》,该专利针对的数据挖系统中的关联规则挖掘,但不能实现预测,不能满足气动领域对数据文件分析、处理的需要。

技术实现思路

[0007]本专利技术的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
[0008]为了实现根据本专利技术的这些目的和其它优点,提供了一种基于隐私保护的气动力预测方法,包括:
[0009]步骤一,各参与方,在本地的原数据文件集中通过添加服从正态分布的噪声,得到带有扰动的数据集;
[0010]步骤二,各参与方根据得到的本地扰动数据集计算局部非线性核;
[0011]步骤三,所有参与的各参与方均将其计算得到局部非线性核设置为共享,以使上
位机基于共享的局部非线性核计算对应的全局核;
[0012]步骤四,基于得到的全局核函数求解最优化问题,得到参数的最优解;
[0013]步骤五,利用步骤四所得到的参数最优解建立预测模型,进行气动力预测。
[0014]优选的是,在步骤一中,数据集的获取过程被配置为包括:
[0015]S10,在针对离散型数据的线性中心支持向量机PSVM中,通过引入核函数以将线性PSVM调整非线性PSVM,并将PSVM调整为能适用于连续性数据的非线性中心支持向量机PSVR。
[0016]S11,在PSVR中引入随机扰动技术,通过在本地的原始数据集中添加服从正态分布的噪声,得到带有扰动的数据集。
[0017]优选的是,在PSVM中引入核函数的方法被配置为包括:
[0018]S101,在PSVM中定义两类样本的类中心为两类样本的均值,正类和负类分别为X+,和X

,均值记为得到原始最优化问题如下:
[0019][0020]s.t.(ω
·
x
i
)+b

y
i
≤ε,i=1,2,...l;
[0021]y
i


·
x
i
)

b≤ε,i=1,2,...,l;
[0022][0023]通过对原始优化问题使得目标函数具有严格凸性,得到对应每类点的中心超平面;
[0024]引入拉格朗日函数得该优化问题得对偶问题为:
[0025][0026]s.t.α
i

i
≥0,i=1,2,...,l y
i
∈R
[0027]其中,α=(α1,α2,...,α
l
)
T
,β=(β1,β2,...,β
l
)
T
为拉格朗日乘子。
[0028]假设α
*
=(α1,α2,...,α
l
,β1,β2,...,β
l
)是该最优化问题的最优解,则f(x)=ω
*T
·
x+b
*
[0029]其中
[0030]S102,根据PSVM我们可以得到的PSVR的优化问题,在线性回归的方法中通过引入核函数将上述原始最优化问题调整为:
[0031][0032]s.t.α
i

i
≥0,i=1,2,...,l y
i
∈R;
[0033]其中,K()为核函数。
[0034]优选的是,在步骤二中,所述局部非线性核的获取方式被配置为包括:
[0035]S20,基于公式A
i
=A
i
+N
i
将PSVR中所有的参与方均生成带有扰动的对应保护数据,其中,A
i
,表示各参与方的数据集,N
i
表示所添加的服从正态分布的噪声;
[0036]S21,对各个参与方的数据计算局部非线性核K,且在所有的参与方中共享非线性核。
[0037]优选的是,在步骤三中,在分布式数据库系统在使用SVR进行回归时,全局核可以通过先求各节点的局部核,然后对各个节点的局部核求和以得到。
[0038]优选的是,在步骤五利用步骤四所求得的最优解,建立对应的预测模型;
[0039]其中,所述预测模型为:
[0040][0041]其中,
[0042]一种气动力预测的数据挖掘系统,包括:
[0043]隐私保护模块,用于根据预制加入干扰策略将所述原数据集转换为授权数据集;
[0044]联合计算模块,各参与方根据变换后的数据集计算机局部核,各局部和用于推导计算全局核,并计算出最优解;
[0045]预测模块,根据各参与方联合计算出的最优解,建立气动力预测模型对气动力进行分析预测。
[0046]本专利技术至少包括以下有益效果:其一,本专利技术通过在分布式系统中的每个节点都添加了噪声,进而生成带有扰动的数据集和带有扰动的局部核,使得外部节点不能得到该节点的原始数据,起到隐私保护的作用。
[0047]本文的方法是各参与方都不会获得其他参与方的原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的气动力预测方法,其特征在于,包括:步骤一,各参与方,在本地的原数据文件集中通过添加服从正态分布的噪声,得到带有扰动的数据集;步骤二,各参与方根据步骤一计算所得到的本地扰动数据集计算局部非线性核;步骤三,所有参与方均将其计算得到局部非线性核设置为共享,以使其他参与方能够基于共享的局部非线性核计算对应的全局核;步骤四,基于得到的全局核函数求解最优化问题,得到参数的最优解;步骤五,利用步骤四所得到的参数最优解建立预测模型,进行气动力预测。2.如权利要求1所述的基于隐私保护的气动力预测方法,其特征在于,在步骤一中,数据集的获取过程被配置为包括:S10,在针对离散型数据的线性中心支持向量机PSVM中,通过引入核函数以将线性PSVM调整非线性PSVM,并将PSVM调整为能适用于连续性数据的非线性中心支持向量机PSVR;S11,在PSVR中引入随机扰动技术,通过在本地的原始数据集中添加服从正态分布的噪声,得到带有扰动的数据集。3.如权利要求2所述的基于隐私保护的气动力预测方法,其特征在于,在PSVM中引入核函数的方法被配置为包括:S101,在PSVM中定义两类样本的类中心为两类样本的均值,正类和负类分别为X+,和X

,均值记为得到原始最优化问题如下:s.t.(ω
·
x
i
)+b

y
i
≤ε,i=1,2,...l;y
i


·
x
i
)

b≤ε,i=1,2,...,l;其中X表示输入的样本数据,x
i
表示X的第i个分量,ω表示权值,b表示阈值,ε表示松弛变量,y
i
表示对应的输出值;通过对原始优化问题的变换使得目标函数具有严格凸性,得到对应每类点的中心超平面;引入拉格朗日函数得该优化问题得对偶问题为:s.t.α
i

i
≥0,i=1,2,...,l y
i
∈R其中,α=(α1,α2,

,α
l

【专利技术属性】
技术研发人员:吴珏杨福军杨雷张培红吴晓军
申请(专利权)人:中国空气动力研究与发展中心计算空气动力研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1