一种分类模型训练方法及装置制造方法及图纸

技术编号:32329857 阅读:21 留言:0更新日期:2022-02-16 18:37
本发明专利技术提供了一种分类模型训练方法及装置,其中,该方法包括:从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;根据该有标签参与方的响应变量和该无标签参与方的解释变量构造检验统计量;根据该检验统计量确定该样本数据集的分类模型的分割准则,以完成对该分类模型的训练,可以解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,通过安全多方秘密共享,在实现数据隐私保护的前提下,进行分类模型的训练,实现了保护数据隐私的分类模型构建。实现了保护数据隐私的分类模型构建。实现了保护数据隐私的分类模型构建。

【技术实现步骤摘要】
一种分类模型训练方法及装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种分类模型训练方法及装置。

技术介绍

[0002]常规用联邦学习框架下的联合建模,变量一般需要进行离散化分箱,并计算woe值,在当前的技术框架下,纵向联邦的联合建模实现,对于无标签方是有可能根据结果反推标签变量的值,造成信息泄露的,这就还需要单独开发一个可以安全、无泄漏的计算模块,会增加计算成本,以及计算速度减慢,造成算法适应有局限性。
[0003]针对相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题,尚未提出解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种分类模型训练方法及装置,以至少解决相关技术中联邦学习框架下的联合建模,为了避免信息泄露增加了计算成本且计算速度慢的问题。
[0005]根据本专利技术的一个实施例,提供了一种分类模型训练方法,包括:
[0006]从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
[0007]根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
[0008]根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
[0009]可选地,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练包括:
[0010]基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
[0011]根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
[0012]可选地,根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练包括:
[0013]根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
[0014]将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
[0015]可选地,根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量包括:
[0016]确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
[0017]可选地,基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括:
[0018]在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
[0019]根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
[0020]可选地,所述方法还包括:
[0021]通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
[0022][0023]其中,P
j
为解释变量j的假设校验值,T
j
(L
n
,ω)为所述检验统计量,c(
·
)表示为所述检验统计量映射到实数域的观察估计值,μ
j

j
为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(L
n
,ω)为所述样本数据集。
[0024]可选地,所述方法还包括:
[0025]通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
[0026][0027]L
n
=(Y
i
,X
1i
,...,X
mi
),i=1,...,n;
[0028]L
n
为所述有标签参与方与所述无标签参与方的样本数据,Y为所述响应变量,ω表示权重参数,X为所述解释变量,g
i
为所述解释变量的一种非随机变换,h为影响函数,vec()为一个算子。
[0029]根据本专利技术的另一个实施例,还提供了一种分类模型训练装置,包括:
[0030]获取模块,用于从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;
[0031]构造模块,用于根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;
[0032]确定模块,用于根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。
[0033]可选地,所述确定模块包括:
[0034]第一确定子模块,用于基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;
[0035]第二确定子模块,用于根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。
[0036]可选地,所述第二确定子模块包括:
[0037]选择单元,用于根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;
[0038]分割单元,用于将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。
[0039]可选地,所述选择单元,还用于:
[0040]确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。
[0041]可选地,所述第一确定子模块包括:
[0042]估计单元,用于在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;
[0043]确定单元,用于根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。
[0044]可选地,所述确定单元,还用于通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:
[0045][0046]其中,P
j
为解释变量j的假设校验值,T
j
(L
n
,ω)为所述检验统计量,c(
·
)表示为所述检验统计量映射到实数域的观察估计值,μ
j

j
为所述检验统计量的期望和方差的估计,表示所述检验统计量的分布估计,S(L
n
,ω)为所述样本数据集。
[0047]可选地,所述构造模块,还用于通过以下方式,根据有标签参与方的响应变量和无标签参与方的解释变量构造检验统计量:
[0048][0049]L
n
=(Y
i
,X
1i
,...,X
mi
),i=1,...,n;
[0050]L
...

【技术保护点】

【技术特征摘要】
1.一种分类模型训练方法,其特征在于,包括:从样本数据集中获取基于安全多方秘密共享的有标签参与方的响应变量和无标签参与方的解释变量;根据所述有标签参与方的响应变量和所述无标签参与方的解释变量构造检验统计量;根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练。2.根据权利要求1所述的方法,其特征在于,根据所述检验统计量确定所述样本数据集的分类模型的分割准则,以完成对所述分类模型的训练包括:基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值;根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练。3.根据权利要求2所述的方法,其特征在于,根据所述检验统计量对应的解释变量的假设校验值确定所述分类模型的分类准则,以完成对所述分类模型的训练包括:根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量关联性最强的目标解释变量;将所述目标解释变量作为分割点对所述样本数据集进行分割,得到所述分类模型的分类准则,以完成对所述分类模型的训练。4.根据权利要求3所述的方法,其特征在于,根据所述检验统计量对应的解释变量的假设校验值从所述检验统计量对应的解释变量中选择与响应变量最显著的目标解释变量包括:确定所述假设校验值中最小值对应的解释变量为所述目标解释变量。5.根据权利要求2所述的方法,其特征在于,基于置换检验方法,通过所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值包括:在零假设下对所述检验统计量的分布进行估计,得到所述检验统计量的分布估计;根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:通过以下方式,根据所述检验统计量的分布估计确定所述检验统计量对应的解释变量的假设校验值:其中,P<...

【专利技术属性】
技术研发人员:张明锐李琨田江向小佳丁永建李璠
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1