基于秘密共享机制的分布式支持向量机训练方法及系统技术方案

技术编号:38523015 阅读:27 留言:0更新日期:2023-08-19 17:01
本发明专利技术涉及支持向量机技术领域,特别是指一种基于秘密共享机制的分布式支持向量机训练方法和系统,所述方法包括:S1、将支持向量机SVM的优化问题使用交替方向乘子法ADMM算法分解成N个子优化问题;S2、将所述N个子优化问题分别由N个参与方进行本地求解,所述N个参与方各自拥有数据横向分布的数据集,这些数据集拥有相同的特征;S3、所述N个参与方使用ADMM算法交互参数,训练输出全局分类器,在所述N个参与方使用ADMM算法交互参数时,采用基于秘密共享机制的FSVM

【技术实现步骤摘要】
基于秘密共享机制的分布式支持向量机训练方法及系统


[0001]本专利技术涉及支持向量机
,特别是指一种基于秘密共享机制的分布式支持向量机训练方法和系统。

技术介绍

[0002]支持向量机(SVM)是一类被广泛应用的监督学习(supervised learning)方法,主要用来构建数据二元分类的广义线性分类器,目前已经在文本分类、手写字符识别和生物信息学得到普及。在现实场景中,存在着训练样本集庞大的问题,单个机器的硬件无法支撑对所有数据直接进行运算的要求,很难保证算法的分类结果的准确性,另外如何确保支持向量机实现过程中的隐私安全也是亟待解决的问题。

技术实现思路

[0003]本专利技术实施例提供了一种基于秘密共享机制的分布式支持向量机训练方法及系统。所述技术方案如下:
[0004]一方面,提供了一种基于秘密共享机制的分布式支持向量机训练方法,包括:
[0005]S1、将支持向量机SVM的优化问题使用交替方向乘子法ADMM算法分解成N个子优化问题;
[0006]S2、将所述N个子优化问题分别由N个参与本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于秘密共享机制的分布式支持向量机训练方法,其特征在于,所述方法包括:S1、将支持向量机SVM的优化问题使用交替方向乘子法ADMM算法分解成N个子优化问题;S2、将所述N个子优化问题分别由N个参与方进行本地求解,所述N 个参与方各自拥有数据横向分布的数据集,这些数据集拥有相同的特征;S3、所述N个参与方使用ADMM算法交互参数,训练输出全局分类器,在所述N个参与方使用ADMM算法交互参数时,采用基于秘密共享机制的FSVM

C隐私保护方案保护所述参数。2.根据权利要求1所述的方法,其特征在于,在SVM分类问题中给定了输入的样本和标签的特征空间,求解的超平面表示为,w是超平面的法向量,b 是截距,SVM的模型为:(1)其中 N 是样本数量,x
i 表示第 i 个样本,y
i 表示第 i 个样本所对应的标签,ξ
i 是松弛变量,每一个样本对应一个松弛变量,但是没有离群的点的松弛变量都为0,表示样本不满足约束的程度,引入容错性,C 为惩罚因子,w和b通过训练的方法学习输出;求解模型的拉格朗日函数L 如式(2)所示:(2)其中α和
ꢀµꢀ
都为拉格朗日乘子,α
i ≥ 0,
µ
i ≥ 0;通过式(2)将支持向量机的问题转换为求解L的极小极大问题,目标是先通过求解使得L 函数最大的α,再求解使得L最小的w , b 和ξ的值,,在这里应用拉格朗日对偶性,通过求解对偶问题来求解原始问题的最优解,可以降低求解难度,原始问题的对偶问题是极大极小问题,先求解使 L 函数最小的 w, b 和ξ,再对L 函数求 α的极大,对偶问题如式(3)所示:(3)其中 α= (α1, α2, . . . , α
N ) 为拉格朗日乘子向量;在模型训练阶段,使用最速下降法结合外点惩罚法求解优化问题,步骤如下:(1)外循环step 1 :选择初始点α0, 初始罚因子M
1 = 1 ,精度ε
1 > 0 , k := 1
step 2 :以为初始点,求解约束优化问题如式(4):(4)进入内循环最速下降法求解F (α, M
k
) ,得到极小点,记为,其中:(5)step 3 :若,则停止计算,得到近似极小点,否则令M
k+1 =cM
k
,置k := k + 1,转step 1;(2)内循环step 1 :选择为内循环初始点α0,精度ε
2 > 0 ,并令t := 1step 2 :确定搜索方向对于每一个α
i
计算:(6)其中:(7)最后得到搜索方向d
t :(8)step 3 :从出发,沿d
t
方向求步长λ
t
step 4 :计算;step 5 :若,停止迭代,否则令t := t + 1 ,返回step 2。3.根据权利要求2所述的方法,其特征在于,假设N=2,所述S1,具体包括:将SVM的优化问题分解成两个子优化问题f (x)和g (z):(9)其中,x ∈ R
n 和z ∈ R
M 为优化变量,矩阵 ,, ,目标函数由 f (x) 和 g (z)两部分构成,从这个形式可以看出,最先拆开的变量被看成是不同的变量,约束条件也是如此处理,那么迭代过程就是对变量进行交替优化;式(9)的增广拉格朗日函数如下所示:
(10)其中λ是对偶变量,ρ是二次惩罚项的系数;ADMM 算法具体的迭代步骤如下:(11)。4.根据权利要求3所述的方法,其特征在于,所述S3,具体包括:S31、所有参与方预先达成共识,包括节点数量 N 、惩罚因子 C ,各参与方初始化 v
0 和λ0,设置好阈值ε
i
,其中v
i = [ω
T , b
i
]
T ∈ R
D+1
, D为数据集特征数量,V = [v
T , v
T , . . . , v
T ]表示v
i
的集合;S32、所有参与方与相邻节点预先生成ρ递增序列和秘密共享乘法计算的乘法三元组表,同时预先计算迭代过程中不会变化的矩阵运算;S33、在第 t次迭代中,参与方i首先与所有邻居节点j, e
ij ∈ E,利用 FSCM

C隐私保护方案计算∑ ρ
t [v
t + v
t
],然后计算拉格朗日乘子;S34、参与方i 根据式(12)更新v
t+1
,并广播到所有邻居节点 j, e
ij ∈ E;(12)S35、参与方i首先与所有邻居节点j, e
ij ∈ E 进行协作计算,这里同样采用 FSCM

C隐私保护方案进行安全计算,然后更新λ
t+1
;S36、计算停止条件R
t+1 ,如式(13)所示,如果则停止迭代,否则,返回步骤(3)继续迭代;(13)经过迭代训练,所有参与方获得全局最优解,进而获得全局最大间隔分类函数。5.根据权利要求4所述的方法,其特征在于,所述FSCM

C隐私保护方案,具体包括:令[N]为参与方的集合,B
i = [X
i
, 1
i
],1
i ∈ R
M
i,X
i
表示样本矩阵,Y
i = diag ([y
i1
, . . . , y
iM ]) 表示为标签的对角矩阵,方便后续简化模型,ξ
i = [ξ
i1
, . . . , ξ
iM
i ]表示第 i
ꢀ‑
th个参与方的松弛变量,C 为支持向量机惩罚因子,另外,设置 I
D+1
表示维数为D + 1 的单位向量,N个参与方通过基于共识的支持向量机模型,输出最大间隔线性分类函数,假设一个有 N 个参与方的网络,用图 G = {N, E} 表示网络的通信模式,E表示参与方之间通信连接的集合,任意节点i ∈ [N ]只和它的邻居节点进行交互,两个节点之间的连接表示为e
ij ∈ E ;参与方与邻居节点本地计算,预先生成参数进行乘法三元组表的计算;
参与方对和行加法秘密分割;参与方发送子秘密给参与方;参与方对和进行加法秘密分割;参与方发送子秘密给参与方;参与方本地计算;参与方本地计算;双方重构并输出秘密。6.一种基于秘密...

【专利技术属性】
技术研发人员:张纪峰王继民赵延龙郭金
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1