模型构建优化方法、设备、介质及计算机程序产品技术

技术编号:27773164 阅读:18 留言:0更新日期:2021-03-23 12:58
本申请公开了一种模型构建优化方法、设备、介质及计算机程序产品,所述模型构建优化方法包括:获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型;通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据;基于所述树输出结果数据和所述训练样本,构建微调模型,并将所述目标决策树模型和所述微调模型共同作为目标预测模型。本申请解决了小样本模型容易过拟合的技术问题。

【技术实现步骤摘要】
模型构建优化方法、设备、介质及计算机程序产品
本申请涉及金融科技(Fintech)的机器学习
,尤其涉及一种模型构建优化方法、设备、介质及计算机程序产品。
技术介绍
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。随着计算机技术的不断发展,机器学习模型的应用也越来越广泛,在纵向联邦学习场景中,存在某些参与方样本过少的情况,也即,存在小样本参与方,进而将导致小样本参与方训练的小样本模型容易过拟合,目前,通常通过横向联邦学习扩展训练样本的维度,进而可达到防止小样本模型过拟合的目的,但是,由于横向联邦学习的进行各参与方的特征需要对齐,进而若小样本参与方与其他方未存在可对齐的特征或者可对齐的特征较少而导致无法进行横向联邦学习或者横向联邦学习的效果较差,则仍然存在由于小样本模型容易过拟合的问题。
技术实现思路
本申请的主要目的在于提供一种模型构建优化方法、设备、介质及计算机程序产品,旨在解决现有技术中小样本模型容易过拟合的技术问题。为实现上述目的,本申请提供一种模型构建优化方法,所述模型构建优化方法应用于模型构建优化设备,所述模型构建优化方法包括:获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型;通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据;基于所述树输出结果数据和所述训练样本,构建微调模型,并将所述目标决策树模型和所述微调模型共同作为目标预测模型。本申请还提供一种样本预测方法,所述样本预测方法应用于样本预测设备,所述样本预测方法包括:获取待预测样本,并通过遍历预设目标决策树模型中各纵向联邦决策树,生成所述待预测样本在各所述纵向联邦决策树中的树输出预测结果;基于各所述树输出预测结果和预设目标预测模型,对所述待预测样本执行模型预测,获得目标预测结果。本申请还提供一种模型构建优化装置,所述模型构建优化装置为虚拟装置,且所述模型构建优化装置应用于模型构建优化设备,所述模型构建优化装置包括:获取模块,用于获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型;生成模块,用于通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据;构建模块,用于基于所述树输出结果数据和所述训练样本,构建微调模型,并将所述目标决策树模型和所述微调模型共同作为目标预测模型。本申请还提供一种样本预测装置,所述样本预测装置为虚拟装置,且所述样本预测装置应用于样本预测设备,所述样本预测装置包括:遍历模块,用于获取待预测样本,并通过遍历预设目标决策树模型中各纵向联邦决策树,生成所述待预测样本在各所述纵向联邦决策树中的树输出预测结果;预测模块,用于基于各所述树输出预测结果和预设目标预测模型,对所述待预测样本执行模型预测,获得目标预测结果。本申请还提供一种模型构建优化设备,所述模型构建优化设备为实体设备,所述模型构建优化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述模型构建优化方法的程序,所述模型构建优化方法的程序被处理器执行时可实现如上述的模型构建优化方法的步骤。本申请还提供一种样本预测设备,所述样本预测设备为实体设备,所述样本预测设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述样本预测方法的程序,所述样本预测方法的程序被处理器执行时可实现如上述的样本预测方法的步骤。本申请还提供一种可读存储介质,所述可读存储介质上存储有实现模型构建优化方法的程序,所述模型构建优化方法的程序被处理器执行时实现如上述的模型构建优化方法的步骤。本申请还提供一种可读存储介质,所述可读存储介质上存储有实现样本预测方法的程序,所述样本预测方法的程序被处理器执行时实现如上述的样本预测方法的步骤。本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的模型构建优化方法的步骤。本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的样本预测方法的步骤。本申请提供了一种模型构建优化方法、设备、介质及计算机程序产品,相比于现有技术采用的横向联邦学习扩展训练样本的维度,进而实现防止小样本模型过拟合的目的的技术手段,本申请首先获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型,进而通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据,其中,由于所述目标决策模型是基于预设大样本数据集构建的,进而所述目标决策模型学习到了预设大样本数据集的数据分布,进而通过将预设小样本数据集的训练样本输入目标决策模型生成树输出结果数据,使得树输出结果数据与预设大样本数据集的数据分布具备关联性,进而实现了基于预设样本数据集构建预设小样本数据集的训练样本的中间特征的目的,进而获取基于预设小样本数据集构建的待微调模型,并基于各所述训练树输出值,对所述待微调模型的模型参数进行微调,获得所述目标预测模型,也即,通过训练样本的中间决策树特征,对待微调模型的模型参数进行微调,使得待微调模型在学习到预设小样本数据集的特征基础上,以生成中间决策树特征的方式间接地学习到了预设大样本数据集的特征,进而实现了基于大样本数据间接地对小样本模型的模型参数进行微调的目的,进而基于所述树输出结果数据和所述训练样本,构建微调模型,实现了间接扩展微调模型对应的训练样本的样本维度的目的,也即,实现了将预设大样本数据集的中间决策树特征迁移到小样本模型的目的,提高小样本模型的泛化能力,所以降低了小样本模型过拟合的风险,克服了若小样本参与方与其他方未存在可对齐的特征或者可对齐的特征较少而导致无法进行横向联邦学习或者横向联邦学习的效果较差时,小样本模型容易过拟合的技术缺陷,所以,解决了小样本模型容易过拟合的技术问题。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请模型构建优化方法第一实施例的流程示意图;图2为本申请模型构建优化方法中构建所述目标决策树模型的系统架构示意图;图3为本申请模型构建优化方法第二实施例的流程示意图;图4为本申请实施例中模型构建优化方法涉及的硬件运行环境的设备结构示意图。图5为本申请实施例中样本预测方法涉及的硬件运行环境的设备结构示意图;图6为本申请实施例方案涉及的硬件架构示意图。本申请目的实现、功能特点及优点将结本文档来自技高网...

【技术保护点】
1.一种模型构建优化方法,其特征在于,所述模型构建优化方法包括:/n获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型;/n通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据;/n基于所述树输出结果数据和所述训练样本,构建微调模型,并将所述目标决策树模型和所述微调模型共同作为目标预测模型。/n

【技术特征摘要】
1.一种模型构建优化方法,其特征在于,所述模型构建优化方法包括:
获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型;
通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据;
基于所述树输出结果数据和所述训练样本,构建微调模型,并将所述目标决策树模型和所述微调模型共同作为目标预测模型。


2.如权利要求1所述模型构建优化方法,其特征在于,所述模型构建优化方法应用于第一设备,所述树输出结果数据至少包括一树输出结果,
所述基于所述树输出结果数据和所述训练样本,构建微调模型的步骤包括:
基于各所述树输出结果,构建中间特征,并生成具备所述中间特征的扩展训练样本;
基于具备所述扩展训练样本的扩展数据集,通过与第二设备进行纵向联邦学习建模,生成所述微调模型。


3.如权利要求2所述模型构建优化方法,其特征在于,所述树输出结果包括叶子节点编码和树输出值,
所述基于各所述树输出结果,构建中间特征的步骤包括:
将各所述树输出值进行拼接,获得所述中间特征;和/或,
将各所述叶子节点编码对应的位置编码向量进行拼接,获得所述中间特征;和/或,
基于各所述树输出值,分别对各所述叶子节点编码对应的位置编码向量进行加权,获得各加权位置编码向量;
将各所述加权位置编码向量进行拼接,获得所述中间特征。


4.如权利要求2所述模型构建优化方法,其特征在于,所述基于具备所述扩展训练样本的扩展数据集,通过与第二设备进行纵向联邦学习建模,生成所述微调模型的步骤包括:
在所述扩展数据集中选取联邦训练样本;
基于所述联邦训练样本,对预设待训练微调模型进行迭代训练,直至所述预设待训练微调模型满足预设迭代训练次数,获取所述预设待训练微调模型的本地模型参数信息;
将所述本地模型参数信息发送至预设联邦服务器,以供所述预设联邦服务器基于所述本地模型参数信息和所述第二设备发送的第二本地模型参数信息,生成联邦模型参数信息;
接收所述联邦模型参数信息,并基于所述联邦模型参数信息,对所述预设待训练微调模型进行更新,以判断所述预设待训练微调模型是否满足预设联邦训练结束条件;
若是,则将所述待训练微调模型作为所述微调模型;
若否,则返回所述在所述扩展数据集中选取联邦训练样本的步骤。


5.如权利要求1所述模型构建优化方法,其特征在于,所述模型构建优化方法应用于第一设备,所述目标决策树模型至少包括一纵向联邦决策树,所述树输出结果数据至少包括一树输出结果,
所述通过遍历所述目标决策树模型中的纵向联邦决策树,生成所述训练样本对应的树输出结果数据的步骤包括:
将所述训练样本输入所述纵向联邦决策树,并开始遍历所述纵向联邦决策树,以判断所述纵向联邦决策树的根节点的归属;
若所述根节点属于第二设备,则向所述第二设备发送预测请求,并接收所述第二设备反馈的反馈结果,以基于所述反馈结果确定所述训练样本的所属孩子节点;
判断所述所属孩子节点是否属于叶子节点类型,若所述所属孩子节点属于所述叶子节点类型,则将所述所属孩子节点作为归属叶子节点,并获取所述归属叶子节点对应的所述树输出结果;
若所述所属孩子节点不属于所述叶子节点类型,则继续遍历所述纵向联邦决策树,直至确定所述训练样本对应的归属叶子节点,并获取所述归属叶子节点对应的所述树输出结果;
若所述根节点属于所述第一设备,则基于所述第一设备中的特征分裂值,确定所述训练样本的所述所属孩子节点,以确定所述训练样本对应的归属叶子节点,并获取所述归属叶子节点对应的所述树输出结果。


6.一种样本预测方法,其特征在于,所述样本预测方法包括:
获取待预测样本,并通过遍历预设目标决策树模型中各纵向联邦决策树,生成所述待预测样本在各所述纵向联邦决策树中的树输出预测结果;
基于各所述树输出预测结...

【专利技术属性】
技术研发人员:衣志昊魏征刘洋陈天健
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1