模型构建优化方法、设备、介质及计算机程序产品技术

技术编号：27773164 阅读：18 留言：0更新日期：2021-03-23 12:58

本申请公开了一种模型构建优化方法、设备、介质及计算机程序产品，所述模型构建优化方法包括：获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型；通过遍历所述目标决策树模型中的纵向联邦决策树，生成所述训练样本对应的树输出结果数据；基于所述树输出结果数据和所述训练样本，构建微调模型，并将所述目标决策树模型和所述微调模型共同作为目标预测模型。本申请解决了小样本模型容易过拟合的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
模型构建优化方法、设备、介质及计算机程序产品
本申请涉及金融科技(Fintech)的机器学习
，尤其涉及一种模型构建优化方法、设备、介质及计算机程序产品。
技术介绍
随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。随着计算机技术的不断发展，机器学习模型的应用也越来越广泛，在纵向联邦学习场景中，存在某些参与方样本过少的情况，也即，存在小样本参与方，进而将导致小样本参与方训练的小样本模型容易过拟合，目前，通常通过横向联邦学习扩展训练样本的维度，进而可达到防止小样本模型过拟合的目的，但是，由于横向联邦学习的进行各参与方的特征需要对齐，进而若小样本参与方与其他方未存在可对齐的特征或者可对齐的特征较少而导致无法进行横向联邦学习或者横向联邦学习的效果较差，则仍然存在由于小样本模型容易过拟合的问题。
技术实现思路
本申请的主要目的在于提供一种模型构建优化方法、设备、介质及计算机程序产品，旨在解决现有技术中小样本模型容易过拟合的技术问题。为实现上述目的，本申请提供一种模型构建优化方法，所述模型构建优化方法应用于模型构建优化设备，所述模型构建优化方法包括：获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型；通过遍历所述目标决策树模型中的纵向联邦决策树，生成所述训练样本对应的树输出结果数据；基于所述树输出结果数据和所述训练样...

【技术保护点】
1.一种模型构建优化方法，其特征在于，所述模型构建优化方法包括：/n获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型；/n通过遍历所述目标决策树模型中的纵向联邦决策树，生成所述训练样本对应的树输出结果数据；/n基于所述树输出结果数据和所述训练样本，构建微调模型，并将所述目标决策树模型和所述微调模型共同作为目标预测模型。/n

【技术特征摘要】
1.一种模型构建优化方法，其特征在于，所述模型构建优化方法包括：
获取预设小样本数据集的训练样本和基于预设大样本数据集构建的目标决策模型；
通过遍历所述目标决策树模型中的纵向联邦决策树，生成所述训练样本对应的树输出结果数据；
基于所述树输出结果数据和所述训练样本，构建微调模型，并将所述目标决策树模型和所述微调模型共同作为目标预测模型。

2.如权利要求1所述模型构建优化方法，其特征在于，所述模型构建优化方法应用于第一设备，所述树输出结果数据至少包括一树输出结果，
所述基于所述树输出结果数据和所述训练样本，构建微调模型的步骤包括：
基于各所述树输出结果，构建中间特征，并生成具备所述中间特征的扩展训练样本；
基于具备所述扩展训练样本的扩展数据集，通过与第二设备进行纵向联邦学习建模，生成所述微调模型。

3.如权利要求2所述模型构建优化方法，其特征在于，所述树输出结果包括叶子节点编码和树输出值，
所述基于各所述树输出结果，构建中间特征的步骤包括：
将各所述树输出值进行拼接，获得所述中间特征；和/或，
将各所述叶子节点编码对应的位置编码向量进行拼接，获得所述中间特征；和/或，
基于各所述树输出值，分别对各所述叶子节点编码对应的位置编码向量进行加权，获得各加权位置编码向量；
将各所述加权位置编码向量进行拼接，获得所述中间特征。

4.如权利要求2所述模型构建优化方法，其特征在于，所述基于具备所述扩展训练样本的扩展数据集，通过与第二设备进行纵向联邦学习建模，生成所述微调模型的步骤包括：
在所述扩展数据集中选取联邦训练样本；
基于所述联邦训练样本，对预设待训练微调模型进行迭代训练，直至所述预设待训练微调模型满足预设迭代训练次数，获取所述预设待训练微调模型的本地模型参数信息；
将所述本地模型参数信息发送至预设联邦服务器，以供所述预设联邦服务器基于所述本地模型参数信息和所述第二设备发送的第二本地模型参数信息，生成联邦模型参数信息；
接收所述联邦模型参数信息，并基于所述联邦模型参数信息，对所述预设待训练微调模型进行更新，以判断所述预设待训练微调模型是否满足预设联邦训练结束条件；
若是，则将所述待训练微调模型作为所述微调模型；
若否，则返回所述在所述扩展数据集中选取联邦训练样本的步骤。

5.如权利要求1所述模型构建优化方法，其特征在于，所述模型构建优化方法应用于第一设备，所述目标决策树模型至少包括一纵向联邦决策树，所述树输出结果数据至少包括一树输出结果，
所述通过遍历所述目标决策树模型中的纵向联邦决策树，生成所述训练样本对应的树输出结果数据的步骤包括：
将所述训练样本输入所述纵向联邦决策树，并开始遍历所述纵向联邦决策树，以判断所述纵向联邦决策树的根节点的归属；
若所述根节点属于第二设备，则向所述第二设备发送预测请求，并接收所述第二设备反馈的反馈结果，以基于所述反馈结果确定所述训练样本的所属孩子节点；
判断所述所属孩子节点是否属于叶子节点类型，若所述所属孩子节点属于所述叶子节点类型，则将所述所属孩子节点作为归属叶子节点，并获取所述归属叶子节点对应的所述树输出结果；
若所述所属孩子节点不属于所述叶子节点类型，则继续遍历所述纵向联邦决策树，直至确定所述训练样本对应的归属叶子节点，并获取所述归属叶子节点对应的所述树输出结果；
若所述根节点属于所述第一设备，则基于所述第一设备中的特征分裂值，确定所述训练样本的所述所属孩子节点，以确定所述训练样本对应的归属叶子节点，并获取所述归属叶子节点对应的所述树输出结果。

6.一种样本预测方法，其特征在于，所述样本预测方法包括：
获取待预测样本，并通过遍历预设目标决策树模型中各纵向联邦决策树，生成所述待预测样本在各所述纵向联邦决策树中的树输出预测结果；
基于各所述树输出预测结...

【专利技术属性】
技术研发人员：衣志昊，魏征，刘洋，陈天健，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人