模型训练方法、装置、系统及存储介质制造方法及图纸

技术编号：39410283 阅读：5 留言：0更新日期：2023-11-19 16:02

本申请公开一种模型训练方法、装置、系统及存储介质，该方法包括：在基于本地的业务样本数据，联合其他第二参与方对第一本地模型进行联邦训练的过程中，还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况，对第一本地模型进行强化反馈学习的训练，得到目标模型；强化反馈学习的训练使得训练后的所述第一本地模型，与第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距；其中，所述全局模型与所述第一本地模型和所述第二本地模型关联；目标业务预测模型用于在接收到待处理的业务数据时，对待处理的业务数据进行预测处理，得到业务预测结果。本申请旨在提升联邦场景下不同参与方联合训练效果。联合训练效果。联合训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、系统及存储介质

[0001]本申请涉及金融
，尤其涉及一种模型训练方法、装置、系统及存储介质。

技术介绍

[0002]随着金融技术的发展，各式各样的大模型不断涌现。然而，由于不同机构、企业或者个人使用的基础模型、训练数据以及模型调整方式不同，导致不同机构的模型之间，以及同一机构不同领域的模型或者不同版本模型的表现不一致(比如理解能力、语气风格等不一致)，这导致联邦场景下不同参与方联合训练效果不佳。

技术实现思路

[0003]有鉴于此，本申请实施例提供一种模型训练方法、装置、系统及存储介质，旨在解决相关技术中，联邦场景下不同参与方联合训练效果不佳的问题。
[0004]本申请实施例提供了一种模型训练方法，应用于第一参与方，所述方法包括：
[0005]在基于本地的业务样本数据，联合其他第二参与方对第一本地模型进行联邦训练的过程中，还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况，对所述第一本地模型进行强化反馈学习的训练，得到目标模型；其中，所述强化反馈学习的训练使得训练后的所述第一本地模型，与所述第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距；
[0006]其中，所述全局模型与所述第一本地模型和所述第二本地模型关联；所述目标业务预测模型用于在接收到待处理的业务数据时，对所述待处理的业务数据进行预测处理，得到业务预测结果。
[0007]在本申请的一种可能的实施方式中，所述评估模型是基于评估训练数据集训练预...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，应用于第一参与方，所述方法包括：在基于本地的业务样本数据，联合其他第二参与方对第一本地模型进行联邦训练的过程中，还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况，对所述第一本地模型进行强化反馈学习的训练，得到目标模型；其中，所述强化反馈学习的训练使得训练后的所述第一本地模型，与所述第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距；其中，所述全局模型与所述第一本地模型和所述第二本地模型关联；所述目标业务预测模型用于在接收到待处理的业务数据时，对所述待处理的业务数据进行预测处理，得到业务预测结果。2.如权利要求1所述的模型训练方法，其特征在于，所述评估模型是基于评估训练数据集训练预设初始模型得到的，所述评估训练数据集是在得到全局模型的过程中，在使用多个第三方评估对应模型对相应预设测试数据的预测情况，且对应第二评估结果趋于一致时，基于所述预测情况所生成的训练数据集，所述评估模型采用各参与方相同的模型部分作为所述预设初始模型。3.如权利要求2所述的模型训练方法，其特征在于，所述在基于本地的业务样本数据，联合其他第二参与方对第一本地模型进行联邦训练的过程中，还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况，对所述第一本地模型进行强化反馈学习的训练，得到目标模型的步骤，包括：基于本地的业务样本数据，对第一本地模型进行训练，得到训练后的第一本地模型；将所述训练后第一本地模型的第一模型参数发送给协调方，以供协调方聚合所述第一模型参数与其他第二参与方对应的第二模型参数，对应得到全局模型，其中，所述第二模型参数是训练后的第二本地模型的模型参数；接收协调方发送的所述全局模型和所述评估模型，以基于所述评估模型、全局预测结果以及中间预测结果，确定目标评分，其中，所述全局模型预测所述业务样本数据所生成的结果为全局预测结果，所述训练后的第一中间模型预测所述业务样本数据所生成的结果为中间预测结果；基于所述目标评分，继续对第一本地模型进行迭代训练，以得到所述目标模型。4.如权利要求3所述的模型训练方法，其特征在于，所述基于所述目标评分，继续对第一本地模型进行迭代训练，以得到所述目标模型的步骤，包括：基于所述目标评分，确定强化反馈学习训练所对应损失函数的损失值；基于所述强化反馈学习训练所对应损失函数的损失值，返回基于本地的业务样本数据，联合其他第二参与方对训练后的第一本地模型进行联邦训练的步骤，以得到所述目标模型。5.如权利要求2所述的模型训练方法，其特征在于，所述评估模型包括奖励模型，其中，所述奖励模型是基于具有预设评分标签的评估训练数据集，对相应初始模型进行迭代训练得到的，所述预设评分标签用于表征评估训练数据集中相应本地模型对相应测试数据的预测效果情况。6.如权利要求5所述的模型训练方法，其特征在于，如果所述评估模型是奖励模型，则所述基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的评估情况，对所
述第一本地模型进行强化反馈学习的训练，得到目标模型的步骤，包括：基于协调方下发的所述奖励模型，确定第一本地模型的评分情况；基于所述评分情况所确定的第一奖励数据，调整所述强化反馈学习训练对应第一相关损失函数值，以基于所述调整后的第一相关损失函数值，对所述第一本地模型进行强化反馈学习的训练，得到目标模型。7.如权利要求2所述的模型训练方法，其特征在于，所述评估模型包括分类模型，其中，所述分类模型是基于具有预设分类标签的评估训练数据集，对相应初始模型进行迭代训练得到的，所述预设分类标签用于表征评估训练数据集中不同模型对相应测试数据的预测排名情况。8.如权利要求7所述的模型训练方法，其特...

【专利技术属性】
技术研发人员：何元钦，范力欣，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人