【技术实现步骤摘要】
基于差分隐私的决策树建模方法、预测方法、设备及介质
[0001]本专利技术涉及人工智能领域、数据保护
,具体涉及基于差分隐私的决策树建模方法、预测方法、设备及介质。
技术介绍
[0002]目前数据隐私安全越来越受到重视,但是人工智能的模型的精度则很大程度上依赖于数据的维度。在个人隐私数据保护以及商业利益的共同驱动下,诞生了联邦学习技术。该技术能够在不使用个人隐私数据的情况下完成机器学习建模。
[0003]在联邦学习实现的众多模型中,最常用的算法模型就是secureboost。该算法是xgboost算法的联邦学习版本,是一种集成多棵决策树的联合建模方法,该方法于2019年年底由微众银行提出。
[0004]在原有的解决方案当中,为了保障建模的主动方不泄露标签y,主动方发送给合作方的一阶导数g以及二阶导数h均采用同态加密算法加密后发送,被动方此时由于没有解密私钥,无法通过[[g]]和[[h]]反推主动方的标签列y,但被动方可以计算各个分桶的一阶导数的和以及二阶导数的和。求得各个分桶的导数和信息之后返还给主动方 ...
【技术保护点】
【技术特征摘要】
1.基于差分隐私的决策树建模方法,其特征在于,该决策树建模方法应用于进行联邦学习和差分隐私的第一设备,第一设备采用联邦学习和差分隐私与第二设备进行交互,所述第一设备作为主动方,第二设备作为被动方;该决策树建模方法包括:S1:主动方对每个建模特征数据进行初始化,给出初始随机预测值计算每个建模特征数据的一阶导数g
i
和二阶导数h
i
,及生成一个随机浮点数Δrate;将各个建模特征数据的一阶导数g
i
和二阶导数h
i
均乘以随机浮点数Δrate后发送给被动方,即主动方发送g
i
Δrate和h
i
Δrate到被动方;S2:被动方根据分箱数对各个建模特征数据进行等频分箱,并对每个箱当中的g
i
Δrate以及h
i
Δrate进行求和,并将所有建模特征数据的各个分箱的一阶导数和、二阶导数和返回给主动方;S3:主动方根据随机浮点数Δrate还原真实的导数和,计算每个可能的分位点增益,并记录最大增益所在的特征数据编号以及分裂点信息,进行一层分裂;S4:主动方反复执行步骤S2~S3,直至满足停止条件,构建得到建模决策树。2.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S1中一阶导数二阶导数二阶导数为初始随机预测值,y
i
为样本数据的真实标签值。3.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S1中生成一个随机浮点数Δrate,其中Δrate的取值为0到1之间的一个随机浮点数。4.根据权利要求1所述的基于差分隐私的决策树建模方法,其特征在于,步骤S2包括以下子步骤:被动方根据分箱数对各个建模特征数据进行等频分箱;被动方对每个箱当中的g
i
Δrate以及h
i
Δrate进行求和,得到一阶导数和gbin
t
=∑
i∈t
g
i
...
【专利技术属性】
技术研发人员:谢世茂,王耀乐,李开宇,
申请(专利权)人:四川新网银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。