模型训练方法、服务评估方法、装置、设备及存储介质制造方法及图纸

技术编号:35226224 阅读:13 留言:0更新日期:2022-10-15 10:45
本申请提供一种模型训练方法、服务评估方法、装置、设备及存储介质,该方法包括:根据至少两方的样本数据,计算至少两方所共有的相似矩阵样本数据包括有标签数据和无标签数据;根据相似矩阵,计算每一个样本数据对应的置信度;根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数;根据各个弱分类器权重以及弱分类函数,更新得到强分类器所对应的强分类函数。本申请所提供的模型训练方法,考虑到了样本间的距离,提高了获得的服务模型的性能。提高了获得的服务模型的性能。提高了获得的服务模型的性能。

【技术实现步骤摘要】
模型训练方法、服务评估方法、装置、设备及存储介质


[0001]本申请涉及机器学习领域,具体而言,涉及一种模型训练方法、服务评估方法、装置、设备及存储介质。

技术介绍

[0002]半监督学习(Semi

Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习同时使用标记数据和大量的未标记数据来进行模式识别工作。
[0003]提升方法是一种常用的统计学习方法。在分类问题中,它可以通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
[0004]目前在半监督联邦学习中,常采用神经网络模型,直接在迭代过程中对样本进行预测,但是神经网络模型的训练需要大量的训练样本,对于样本数量有限的情况下,其训练获得的联邦学习模型的性能较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种模型训练方法、服务评估方法、装置、设备及存储介质,用以提高训练获得的模型的性能。
[0006]第一方面,本申请实施例提供了一种模型训练方法,其应用于联邦学习场景,该方法包括:根据至少两方的样本数据,计算所述至少两方所共有的相似矩阵;所述相似矩阵表征所述至少两方的样本数据之间的相似关系;所述样本数据包括有标签数据和无标签数据;且,所述样本数据包括多个用户分别对应的预设的用户信息;所述有标签数据对应的类标签信息用于表征是否为对应的用户提供服务;根据所述相似矩阵,计算每一个样本数据对应的置信度;所述置信度包括样本数据为有标签数据的第一概率以及样本数据为无标签数据的第二概率;根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数;根据各个弱分类器权重以及弱分类函数,更新得到强分类器所对应的强分类函数;其中,所述弱分类器和所述强分类器均用于预测是否为用户提供服务,且所述强分类器的预测准确性高于所述弱分类器的预测准确性。这样,可以使用无标签样本数据进行相关计算,解决了相关技术中存在的训练获得的模型性能差的问题;并且可以基于相似矩阵减少样本数据的需求量,基于提升方法提升可解释性,基于置信度将无标签数据排除在当前训练过程之外,避免了干扰因素。继而,该方法改善了相关技术中存在的联邦学习场景下的监督或者半监督学习方法中的不足,具有更强的实用性。
[0007]可选地,所述根据至少两方的样本数据,计算所述至少两方所共有的相似矩阵,包括:根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离;根据所述欧式距离,计算所述至少两方所共有的相似矩阵。这样,能够使样本数据之间的相似关系更加直观,易于实现。
[0008]可选地,所述联邦学习场景包括纵向学习场景,所述纵向学习场景中的任意一方
的样本数据至少包括2个,以及所述根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离,包括:根据己方每一个样本数据所对应的己方特征值,确定任意两个己方特征值之间的差值;根据任意两个己方特征值之间的差值,确定己方特征差值所对应的己方平方和;接收对方平方和;所述对方平方和表征对方特征差值所对应的平方和;所述对方特征差值表征任意两个对方样本数据对应的对方特征值之间的差值;计算所述己方平方和以及所述对方平方和所对应的累加和的二次方根,得到所述欧式距离。这样,通过发送各参与方所对应的对方平方和,保证了对方的数据安全,继而可以应用于纵向学习场景。
[0009]可选地,所述联邦学习场景包括纵向学习场景,所述纵向学习场景中的任意一方的样本数据至少包括2个,以及所述根据所述相似矩阵,计算每一个样本数据对应的置信度,包括:利用脉冲函数确定每一个己方样本数据是否有标签;若任一己方样本数据有标签,则根据第一预设表达式计算该己方样本数据对应的置信度;若任一己方样本数据无标签,则根据第二预设表达式计算该己方样本数据对应的置信度;所述第二预设表达式包括决策树对该己方样本数据的预测结果项。这样,通过判断己方样本数据是否存在标签,可以通过不同的表达式确定出对应的置信度,并且可以预测出无标签样本数据的标签信息,减少了在纵向学习场景下的样本需求量。
[0010]可选地,所述根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数,包括:确定同一己方样本数据的所述第一概率和所述第二概率所对应的概率差值是否在预设差异范围内;若所述概率差值在所述预设差异范围内,抽取该己方样本数据;根据抽取的己方样本数据以及所述类标签信息训练多个弱分类器,得到多个弱分类器所分别对应的弱分类器权重以及弱分类函数。这样,可以基于己方样本数据的置信度确定出用于训练弱分类器的新样本数据,使训练得到的弱分类器更加适用于当前的纵向学习场景。
[0011]可选地,所述联邦学习场景包括横向学习场景,以及所述根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离,包括:根据接收到的第一对方加密特征值以及己方样本数据对应的特征值,利用欧式距离公式计算所述欧式距离;其中,所述第一对方加密特征值由对方通过全同态加密方式对对方样本数据所对应的特征值进行加密得到;或者根据接收到的第二对方加密特征值以及己方样本数据对应的特征值,利用欧式距离公式计算所述欧式距离;其中,所述第二对方加密特征值由对方通过半同态加密方式对对方样本数据所对应的特征值进行加密得到。这样,可以通过全同态加密方式或者半同态加密方式计算得到对应的欧式距离,在横向学习场景下保证了数据安全。
[0012]可选地,所述根据所述相似矩阵,计算每一个样本数据对应的置信度,包括:接收对方加密样本数据;利用脉冲函数确定每一个对方加密样本数据以及己方样本数据是否有标签;若任一样本数据有标签,则根据第一预设表达式计算该样本数据对应的置信度;若任一样本数据无标签,则根据第二预设表达式计算该样本数据对应的置信度;所述第二预设表达式包括决策树对该样本数据的预测结果项。这样,通过判断样本数据是否存在标签,可以通过不同的表达式确定出对应的置信度,并且可以预测出无标签样本数据的标签信息,减少了在横向学习场景下的样本需求量。
[0013]可选地,所述根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数,包括:确定同一对方加密样本数据或者己方样
本数据的所述第一概率和所述第二概率所对应的概率差值是否在预设差异范围内;若所述概率差值在所述预设差异范围内,抽取该样本数据;根据抽取的样本数据以及所述类标签信息训练多个弱分类器,得到多个弱分类器所分别对应的弱分类器权重以及弱分类函数。这样,可以基于任一样本数据的置信度确定出用于训练弱分类器的新样本数据,使训练得到的弱分类器更加适用于当前的横向学习场景。
[0014]第二方面,本申请实施例提供一种服务评估方法,包括:接收目标用户的用户信息;基于所述用户信息,利用第一方面所述的方法训练得到的强分类器预测是否为所述目标用户提供服务。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于联邦学习场景,包括:根据至少两方的样本数据,计算所述至少两方所共有的相似矩阵;所述相似矩阵表征所述至少两方的样本数据之间的相似关系;所述样本数据包括有标签数据和无标签数据;且,所述样本数据包括多个用户分别对应的预设的用户信息;所述有标签数据对应的类标签信息用于表征是否为对应的用户提供服务;根据所述相似矩阵,计算每一个样本数据对应的置信度;所述置信度包括样本数据为有标签数据的第一概率以及样本数据为无标签数据的第二概率;根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数;根据各个弱分类器权重以及弱分类函数,更新得到强分类器所对应的强分类函数;其中,所述弱分类器和所述强分类器均用于预测是否为用户提供服务,且所述强分类器的预测准确性高于所述弱分类器的预测准确性。2.根据权利要求1所述的方法,其特征在于,所述根据至少两方的样本数据,计算所述至少两方所共有的相似矩阵,包括:根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离;根据所述欧式距离,计算所述至少两方所共有的相似矩阵。3.根据权利要求2所述的方法,其特征在于,所述联邦学习场景包括纵向学习场景,所述纵向学习场景中的任意一方的样本数据至少包括2个,以及所述根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离,包括:根据己方每一个样本数据所对应的己方特征值,确定任意两个己方特征值之间的差值;根据任意两个己方特征值之间的差值,确定己方特征差值所对应的己方平方和;接收对方平方和;所述对方平方和表征对方特征差值所对应的平方和;所述对方特征差值表征任意两个对方样本数据对应的对方特征值之间的差值;计算所述己方平方和以及所述对方平方和所对应的累加和的二次方根,得到所述欧式距离。4.根据权利要求1

3任一项所述的方法,其特征在于,所述联邦学习场景包括纵向学习场景,所述纵向学习场景中的任意一方的样本数据至少包括2个,以及所述根据所述相似矩阵,计算每一个样本数据对应的置信度,包括:利用脉冲函数确定每一个己方样本数据是否有标签;若任一己方样本数据有标签,则根据第一预设表达式计算该己方样本数据对应的置信度;若任一己方样本数据无标签,则根据第二预设表达式计算该己方样本数据对应的置信度;所述第二预设表达式包括决策树对该己方样本数据的预测结果项。5.根据权利要求4所述的方法,其特征在于,所述根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数,包括:确定同一己方样本数据的所述第一概率和所述第二概率所对应的概率差值是否在预设差异范围内;若所述概率差值在所述预设差异范围内,抽取该己方样本数据;
根据抽取的己方样本数据以及所述类标签信息训练多个弱分类器,得到多个弱分类器所分别对应的弱分类器权重以及弱分类函数。6.根据权利要求2所述的方法,其特征在于,所述联邦学习场景包括横向学习场景,以及所述根据至少两方的样本数据,确定所述至少两方的样本数据之间的欧式距离,包括:根据接收到的第一对方加密特征值以及己方样本数据对应的特征值,利用欧式距离公式计算所述欧式...

【专利技术属性】
技术研发人员:蔡晓娟卞阳邢旭陈立峰
申请(专利权)人:富算科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1