模型训练方法、服务评估方法、装置、设备及存储介质制造方法及图纸

技术编号：35226224 阅读：13 留言：0更新日期：2022-10-15 10:45

本申请提供一种模型训练方法、服务评估方法、装置、设备及存储介质，该方法包括：根据至少两方的样本数据，计算至少两方所共有的相似矩阵样本数据包括有标签数据和无标签数据；根据相似矩阵，计算每一个样本数据对应的置信度；根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数；根据各个弱分类器权重以及弱分类函数，更新得到强分类器所对应的强分类函数。本申请所提供的模型训练方法，考虑到了样本间的距离，提高了获得的服务模型的性能。提高了获得的服务模型的性能。提高了获得的服务模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、服务评估方法、装置、设备及存储介质

[0001]本申请涉及机器学习领域，具体而言，涉及一种模型训练方法、服务评估方法、装置、设备及存储介质。

技术介绍

[0002]半监督学习(Semi
‑
Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习同时使用标记数据和大量的未标记数据来进行模式识别工作。
[0003]提升方法是一种常用的统计学习方法。在分类问题中，它可以通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。
[0004]目前在半监督联邦学习中，常采用神经网络模型，直接在迭代过程中对样本进行预测，但是神经网络模型的训练需要大量的训练样本，对于样本数量有限的情况下，其训练获得的联邦学习模型的性能较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种模型训练方法、服务评估方法、装置、设备及存储介质，用以提高训练获得的模型的性能。
[0006]第一方面，本申请实施例提供了一种模型训练方法，其应用于联邦学习场景，该方法包括：根据至少两方的样本数据，计算所述至少两方所共有的相似矩阵；所述相似矩阵表征所述至少两方的样本数据之间的相似关系；所述样本数据包括有标签数据和无标签数据；且，所述样本数据包括多个用户分别对应的预设的用户信息；所述有标签数据对应的类标签信息用于表征是否为对应的用户提供服务；根据所述相似矩阵，计算每一个样本数...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，应用于联邦学习场景，包括：根据至少两方的样本数据，计算所述至少两方所共有的相似矩阵；所述相似矩阵表征所述至少两方的样本数据之间的相似关系；所述样本数据包括有标签数据和无标签数据；且，所述样本数据包括多个用户分别对应的预设的用户信息；所述有标签数据对应的类标签信息用于表征是否为对应的用户提供服务；根据所述相似矩阵，计算每一个样本数据对应的置信度；所述置信度包括样本数据为有标签数据的第一概率以及样本数据为无标签数据的第二概率；根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数；根据各个弱分类器权重以及弱分类函数，更新得到强分类器所对应的强分类函数；其中，所述弱分类器和所述强分类器均用于预测是否为用户提供服务，且所述强分类器的预测准确性高于所述弱分类器的预测准确性。2.根据权利要求1所述的方法，其特征在于，所述根据至少两方的样本数据，计算所述至少两方所共有的相似矩阵，包括：根据至少两方的样本数据，确定所述至少两方的样本数据之间的欧式距离；根据所述欧式距离，计算所述至少两方所共有的相似矩阵。3.根据权利要求2所述的方法，其特征在于，所述联邦学习场景包括纵向学习场景，所述纵向学习场景中的任意一方的样本数据至少包括2个，以及所述根据至少两方的样本数据，确定所述至少两方的样本数据之间的欧式距离，包括：根据己方每一个样本数据所对应的己方特征值，确定任意两个己方特征值之间的差值；根据任意两个己方特征值之间的差值，确定己方特征差值所对应的己方平方和；接收对方平方和；所述对方平方和表征对方特征差值所对应的平方和；所述对方特征差值表征任意两个对方样本数据对应的对方特征值之间的差值；计算所述己方平方和以及所述对方平方和所对应的累加和的二次方根，得到所述欧式距离。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述联邦学习场景包括纵向学习场景，所述纵向学习场景中的任意一方的样本数据至少包括2个，以及所述根据所述相似矩阵，计算每一个样本数据对应的置信度，包括：利用脉冲函数确定每一个己方样本数据是否有标签；若任一己方样本数据有标签，则根据第一预设表达式计算该己方样本数据对应的置信度；若任一己方样本数据无标签，则根据第二预设表达式计算该己方样本数据对应的置信度；所述第二预设表达式包括决策树对该己方样本数据的预测结果项。5.根据权利要求4所述的方法，其特征在于，所述根据每一个样本数据的置信度以及类标签信息确定多个弱分类器所分别对应的弱分类器权重以及弱分类函数，包括：确定同一己方样本数据的所述第一概率和所述第二概率所对应的概率差值是否在预设差异范围内；若所述概率差值在所述预设差异范围内，抽取该己方样本数据；
根据抽取的己方样本数据以及所述类标签信息训练多个弱分类器，得到多个弱分类器所分别对应的弱分类器权重以及弱分类函数。6.根据权利要求2所述的方法，其特征在于，所述联邦学习场景包括横向学习场景，以及所述根据至少两方的样本数据，确定所述至少两方的样本数据之间的欧式距离，包括：根据接收到的第一对方加密特征值以及己方样本数据对应的特征值，利用欧式距离公式计算所述欧式...

【专利技术属性】
技术研发人员：蔡晓娟，卞阳，邢旭，陈立峰，
申请(专利权)人：富算科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人