模型训练方法、装置、系统及存储介质制造方法及图纸

技术编号:39410283 阅读:5 留言:0更新日期:2023-11-19 16:02
本申请公开一种模型训练方法、装置、系统及存储介质,该方法包括:在基于本地的业务样本数据,联合其他第二参与方对第一本地模型进行联邦训练的过程中,还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对第一本地模型进行强化反馈学习的训练,得到目标模型;强化反馈学习的训练使得训练后的所述第一本地模型,与第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距;其中,所述全局模型与所述第一本地模型和所述第二本地模型关联;目标业务预测模型用于在接收到待处理的业务数据时,对待处理的业务数据进行预测处理,得到业务预测结果。本申请旨在提升联邦场景下不同参与方联合训练效果。联合训练效果。联合训练效果。

【技术实现步骤摘要】
模型训练方法、装置、系统及存储介质


[0001]本申请涉及金融
,尤其涉及一种模型训练方法、装置、系统及存储介质。

技术介绍

[0002]随着金融技术的发展,各式各样的大模型不断涌现。然而,由于不同机构、企业或者个人使用的基础模型、训练数据以及模型调整方式不同,导致不同机构的模型之间,以及同一机构不同领域的模型或者不同版本模型的表现不一致(比如理解能力、语气风格等不一致),这导致联邦场景下不同参与方联合训练效果不佳。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种模型训练方法、装置、系统及存储介质,旨在解决相关技术中,联邦场景下不同参与方联合训练效果不佳的问题。
[0004]本申请实施例提供了一种模型训练方法,应用于第一参与方,所述方法包括:
[0005]在基于本地的业务样本数据,联合其他第二参与方对第一本地模型进行联邦训练的过程中,还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型;其中,所述强化反馈学习的训练使得训练后的所述第一本地模型,与所述第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距;
[0006]其中,所述全局模型与所述第一本地模型和所述第二本地模型关联;所述目标业务预测模型用于在接收到待处理的业务数据时,对所述待处理的业务数据进行预测处理,得到业务预测结果。
[0007]在本申请的一种可能的实施方式中,所述评估模型是基于评估训练数据集训练预设初始模型得到的,所述评估训练数据集是在得到全局模型的过程中,在使用多个第三方评估对应模型对相应预设测试数据的预测情况,且对应第二评估结果趋于一致时,基于所述预测情况所生成的训练数据集,所述评估模型采用各参与方相同的模型部分作为所述预设初始模型。
[0008]本申请还提供一种模型训练方法,所述在基于本地的业务样本数据,联合其他第二参与方对第一本地模型进行联邦训练的过程中,还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤,包括:
[0009]基于本地的业务样本数据,对第一本地模型进行训练,得到训练后的第一本地模型;
[0010]将所述训练后第一本地模型的第一模型参数发送给协调方,以供协调方聚合所述第一模型参数与其他第二参与方对应的第二模型参数,对应得到全局模型,其中,所述第二模型参数是训练后的第二本地模型的模型参数;
[0011]接收协调方发送的所述全局模型和所述评估模型,以基于所述评估模型、全局预
测结果以及中间预测结果,确定目标评分,其中,所述全局模型预测所述业务样本数据所生成的结果为全局预测结果,所述训练后的第一中间模型预测所述业务样本数据所生成的结果为中间预测结果;
[0012]基于所述目标评分,继续对第一本地模型进行迭代训练,以得到所述目标模型。
[0013]在本申请的一种可能的实施方式中,所述基于所述目标评分,继续对第一本地模型进行迭代训练,以得到所述目标模型的步骤,包括:
[0014]基于所述目标评分,确定强化反馈学习训练所对应损失函数的损失值;
[0015]基于所述强化反馈学习训练所对应损失函数的损失值,返回基于本地的业务样本数据,联合其他第二参与方对训练后的第一本地模型进行联邦训练的步骤,以得到所述目标模型。
[0016]在本申请的一种可能的实施方式中,所述评估模型包括奖励模型,其中,所述奖励模型是基于具有预设评分标签的评估训练数据集,对相应初始模型进行迭代训练得到的,所述预设评分标签用于表征评估训练数据集中相应本地模型对相应测试数据的预测效果情况。
[0017]在本申请的一种可能的实施方式中,如果所述评估模型是奖励模型,则所述基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤,包括:
[0018]基于协调方下发的所述奖励模型,确定第一本地模型的评分情况;
[0019]基于所述评分情况所确定的第一奖励数据,调整所述强化反馈学习训练对应第一相关损失函数值,以基于所述调整后的第一相关损失函数值,对所述第一本地模型进行强化反馈学习的训练,得到目标模型。
[0020]在本申请的一种可能的实施方式中,所述评估模型包括分类模型,其中,所述分类模型是基于具有预设分类标签的评估训练数据集,对相应初始模型进行迭代训练得到的,所述预设分类标签用于表征评估训练数据集中不同模型对相应测试数据的预测排名情况。
[0021]在本申请的一种可能的实施方式中,如果所述评估模型是分类模型,则所述基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤,包括:
[0022]基于协调方下发的所述分类模型,确定相应全局模型和所述第一本地模型之间的比对情况;
[0023]基于所述比对情况所确定的第二奖励数据,调整所述强化反馈学习训练对应第二相关损失函数值,以基于所述调整后的第二相关损失函数值,对所述第一本地模型进行强化反馈学习的训练,得到目标模型。
[0024]在本申请的一种可能的实施方式中,通过预设学习强度调整所述第一相关损失函数值或者第二相关损失函数值。
[0025]在本申请的一种可能的实施方式中,所述基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤之后,包括:
[0026]在接收到待处理的业务数据时,基于所述训练好的目标模型对所述待处理的业务数据进行预测处理,得到业务预测结果。
[0027]本申请还提供一种模型训练方法,应用于协调方,所述方法包括:
[0028]确定预设测试数据;
[0029]在多个第三方评估对应模型对所述预设测试数据的预测情况后,若确定对应评估结果趋于一致时,基于趋于一致的评估结果所对应的预测情况,生成评估训练数据集;
[0030]基于所述评估训练数据集,训练得到评估模型;
[0031]将所述评估模型下发给各参与方,以供各参与方基于所述评估模型对相应全局模型和/或者对应本地模型的相关评估情况,对相应本地模型进行强化反馈学习的训练;
[0032]其中,所述全局模型与各参与方对应本地模型关联。
[0033]在本申请的一种可能的实施方式中,所述基于所述评估训练数据集,训练得到评估模型的步骤,包括:
[0034]基于所述评估训练数据集,对预设初始模型进行迭代训练,得到评估模型;
[0035]其中,采用各参与方相同的模型部分作为所述预设初始模型。
[0036]本申请还提供一种模型训练装置,应用于第一参与方,所述装置包括:
[0037]第一训练模块,用于在基于本地的业务样本数据,联合其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,应用于第一参与方,所述方法包括:在基于本地的业务样本数据,联合其他第二参与方对第一本地模型进行联邦训练的过程中,还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型;其中,所述强化反馈学习的训练使得训练后的所述第一本地模型,与所述第二参与方相应训练后的第二本地模型的预设评估指标的差距不大于预设差距;其中,所述全局模型与所述第一本地模型和所述第二本地模型关联;所述目标业务预测模型用于在接收到待处理的业务数据时,对所述待处理的业务数据进行预测处理,得到业务预测结果。2.如权利要求1所述的模型训练方法,其特征在于,所述评估模型是基于评估训练数据集训练预设初始模型得到的,所述评估训练数据集是在得到全局模型的过程中,在使用多个第三方评估对应模型对相应预设测试数据的预测情况,且对应第二评估结果趋于一致时,基于所述预测情况所生成的训练数据集,所述评估模型采用各参与方相同的模型部分作为所述预设初始模型。3.如权利要求2所述的模型训练方法,其特征在于,所述在基于本地的业务样本数据,联合其他第二参与方对第一本地模型进行联邦训练的过程中,还基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的相关评估情况,对所述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤,包括:基于本地的业务样本数据,对第一本地模型进行训练,得到训练后的第一本地模型;将所述训练后第一本地模型的第一模型参数发送给协调方,以供协调方聚合所述第一模型参数与其他第二参与方对应的第二模型参数,对应得到全局模型,其中,所述第二模型参数是训练后的第二本地模型的模型参数;接收协调方发送的所述全局模型和所述评估模型,以基于所述评估模型、全局预测结果以及中间预测结果,确定目标评分,其中,所述全局模型预测所述业务样本数据所生成的结果为全局预测结果,所述训练后的第一中间模型预测所述业务样本数据所生成的结果为中间预测结果;基于所述目标评分,继续对第一本地模型进行迭代训练,以得到所述目标模型。4.如权利要求3所述的模型训练方法,其特征在于,所述基于所述目标评分,继续对第一本地模型进行迭代训练,以得到所述目标模型的步骤,包括:基于所述目标评分,确定强化反馈学习训练所对应损失函数的损失值;基于所述强化反馈学习训练所对应损失函数的损失值,返回基于本地的业务样本数据,联合其他第二参与方对训练后的第一本地模型进行联邦训练的步骤,以得到所述目标模型。5.如权利要求2所述的模型训练方法,其特征在于,所述评估模型包括奖励模型,其中,所述奖励模型是基于具有预设评分标签的评估训练数据集,对相应初始模型进行迭代训练得到的,所述预设评分标签用于表征评估训练数据集中相应本地模型对相应测试数据的预测效果情况。6.如权利要求5所述的模型训练方法,其特征在于,如果所述评估模型是奖励模型,则所述基于协调方下发的评估模型对相应全局模型和/或者第一本地模型的评估情况,对所
述第一本地模型进行强化反馈学习的训练,得到目标模型的步骤,包括:基于协调方下发的所述奖励模型,确定第一本地模型的评分情况;基于所述评分情况所确定的第一奖励数据,调整所述强化反馈学习训练对应第一相关损失函数值,以基于所述调整后的第一相关损失函数值,对所述第一本地模型进行强化反馈学习的训练,得到目标模型。7.如权利要求2所述的模型训练方法,其特征在于,所述评估模型包括分类模型,其中,所述分类模型是基于具有预设分类标签的评估训练数据集,对相应初始模型进行迭代训练得到的,所述预设分类标签用于表征评估训练数据集中不同模型对相应测试数据的预测排名情况。8.如权利要求7所述的模型训练方法,其特...

【专利技术属性】
技术研发人员:何元钦范力欣
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1