当前位置: 首页 > 专利查询>郭方红专利>正文

数据样本模型训练方法及装置制造方法及图纸

技术编号:34036590 阅读:58 留言:0更新日期:2022-07-06 12:27
本发明专利技术涉及一种数据样本模型训练方法及装置,包括如下步骤:选取多套数据样本,对应每套数据样本训练一套样本评估模型;将数据样本聚类成多个簇;每个簇训练一套簇评估模型;基于多套簇评估模型,训练最终评估模型。本发明专利技术能够有效减少数据处理量,提高建模效率,训练出泛化能力强的模型。出泛化能力强的模型。出泛化能力强的模型。

Data sample model training method and device

【技术实现步骤摘要】
数据样本模型训练方法及装置


[0001]本专利技术涉及数据处理,尤其是一种数据样本模型训练方法及装置。

技术介绍

[0002]在人工智能、机器学习领域,如何建模,即如何训练一个各个场景通用(泛化能力强)的模型,一直是业内的重点和难点之一。比如有12家银行需要联合训练风险控制模型,每家银行提供一套数据样本,每份样本都含有X变量和Y变量,现有建模方法是,对每套数据样本训练一个子模型,需要遍历12个子模型训练最终的风险控制模型,数据处理量大,建模效率低。

技术实现思路

[0003]本专利技术的专利技术目的在于提供一种数据样本模型训练方法及装置,能够有效减少数据处理量,提高建模效率。
[0004]基于同一专利技术构思,本专利技术具有两个独立的技术方案:1、一种数据样本模型训练方法,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将数据样本聚类成多个簇;步骤3: 每个簇训练一套簇评估模型;步骤4:基于多套簇评估模型,训练最终评估模型。
[0005]进一步地,步骤2包括如下步骤:步骤2.1:将每套样本评估模型逐一测试各套数据样本,相应获得多个测试指标数据;基于测试指标数据,计算数据样本与数据样本之间的距离;步骤2.2:选取一套数据样本训练新簇;步骤2.3:判断是否有未完成聚类的数据样本,如果是,则进入步骤2.4,如果否,则结束聚类;步骤2.4:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤2.2,选取该最小距离的数据样本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤2.3。
[0006]进一步地,步骤2.1中,数据样本与数据样本之间的距离通过如下方法获得,计算A数据样本到B数据样本方向的距离C1,计算方法为用A数据样本对应的A样本评估模型测试B数据样本,获得测试指标数据M1,则距离C1=1

M1;计算B数据样本到A数据样本方向的距离C2,计算方法为用B数据样本对应的B样本评估模型测试A数据样本,获得测试指标数据M2,则距离C2=1

M2;A数据样本与B数据样本之间的距离C=(C1+C2)/2。
[0007]进一步地,步骤2.4中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值,或者是指,该数据样本与簇内每套数据样本之间距离的最大
值。
[0008]进一步地,步骤2.1中,剔除无效的样本评估模型及其对应的数据样本,包括如下步骤:步骤2.1.1:将每套样本评估模型逐一测试各套数据样本,相应获得多个测试指标数据;步骤2.1.2:计算每套样本评估模型对应测试指标数据的平均值,从各个样本对应的平均值中选取最小平均值;如果所述最小平均值小于阈值,则剔除所述最小平均值对应的样本评估模型,及所述样本评估模型对应的数据样本,返回步骤2.1.1;如果所述最小平均值大于阈值,则进入步骤2.2。
[0009]进一步地,步骤3中,簇评估模型下设多个子模型。
[0010]进一步地,步骤3中,簇评估模型由簇包含的多套数据样本融合训练而成。
[0011]进一步地,步骤3中,簇评估模型是基于簇中的一套数据样本训练而成,所述一套数据样本满足的条件为,该数据样本到簇内其它数据样本的平均距离最小,或者该数据样本评估模型对应测试指标数据的平均值最大,所述测试指标数据是指,将每套样本评估模型逐一测试各套数据样本,相应获得的数据。
[0012]进一步地,评估模型为风险控制评估模型,评估模型的测试指标数据为AUC值或K

S值。
[0013]2、一种数据样本模型训练装置,包括多个训练服务器,用于执行上述方法;每套数据样本相应设有1个样本评估模型训练服务器,所述样本评估模型训练服务器用于训练数据样本所对应的样本评估模型;每个簇相应设有1个簇评估模型训练服务器,所述簇评估模型训练服务器用于簇所对应的簇评估模型;包括聚合训练服务器,所述聚合训练服务器基于多套簇评估模型,训练最终评估模型。
[0014]本专利技术具有的有益效果:本专利技术选取多套数据样本,对应每套数据样本训练一套样本评估模型;剔除无效的样本评估模型及其对应的数据样本;将数据样本聚类成多个簇;每个簇训练一套簇评估模型;基于多套簇评估模型,训练最终评估模型。本专利技术先对数据样本聚类,根据聚类后的簇评估模型训练最终评估模型,有效减少数据处理量,提高建模效率。例如,现有建模方法需基于12个银行数据样本对应的12个子模型建模,每个子模型的权重如果是取值从0到4十种可能,则一共要5的12次方次遍历,但如果聚类成3个簇,基于3个簇模型建模,则融合的时候只要5的3次方次,大幅减少数据处理量,提高建模效率。本专利技术每个簇训练一套簇评估模型,基于多套簇评估模型,训练最终评估模型,有效保证了模型的泛化性。
[0015]本专利技术将每套样本评估模型逐一测试各套数据样本,相应获得多个测试指标数据;计算每套样本评估模型对应测试指标数据的平均值,从各个样本对应的平均值中选取最小平均值;如果所述最小平均值小于阈值,则剔除所述最小平均值对应的样本评估模型,及所述样本评估模型对应的数据样本。本专利技术通过剔除无效的样本评估模型及其对应的数据样本,进一步保证提高建模效率。
[0016]本专利技术数据样本聚类时,选取多套数据样本,对应每套数据样本训练一套样本评估模型;将每套样本评估模型逐一测试各套数据样本,对应每套样本评估模型均相应获得
一组测试指标数据;基于每套样本评估模型的测试指标数据,计算数据样本与数据样本之间的距离;基于数据样本与数据样本之间的距离,对数据样本聚类。本专利技术通过上述方法有效保证数据样本的聚类可靠性,进而保证建模可靠性。
[0017]本专利技术簇评估模型是基于簇中的一套数据样本训练而成,所述一套数据样本满足的条件为,该数据样本到簇内其它数据样本的平均距离最小,或者该数据样本评估模型对应测试指标数据的平均值最大,所述测试指标数据是指,将每套样本评估模型逐一测试各套数据样本,相应获得的数据。本专利技术每套簇评估模型仅基于一套数据样本训练,进一步保证减少数据处理量,提高建模效率,同时,本专利技术对建模依据的数据样本选取方法,保证了建模可靠性。
附图说明
[0018]图1是本专利技术数据样本模型训练方法流程图;图2是本专利技术训练最终评估模型模型示意图。
具体实施方式
[0019]下面结合附图所示的各实施方式对本专利技术进行详细说明,但应当说明的是,这些实施方式并非对本专利技术的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本专利技术的保护范围之内。
[0020]实施例一:数据样本模型训练方法如图1所示,本专利技术数据样本模型训练方法包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型。
[0021]数据样本标准化,对样本抽相同的数据(例如 1w)和相同的坏样本比例(例如 25%)。...

【技术保护点】

【技术特征摘要】
1.一种数据样本模型训练方法,其特征在于,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将数据样本聚类成多个簇;步骤3: 每个簇训练一套簇评估模型;步骤4:基于多套簇评估模型,训练最终评估模型。2.根据权利要求1所述的数据样本模型训练方法,其特征在于:步骤2包括如下步骤:步骤2.1:将每套样本评估模型逐一测试各套数据样本,相应获得多个测试指标数据;基于测试指标数据,计算数据样本与数据样本之间的距离;步骤2.2:选取一套数据样本训练新簇;步骤2.3:判断是否有未完成聚类的数据样本,如果是,则进入步骤2.4,如果否,则结束聚类;步骤2.4:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤2.2,选取该最小距离的数据样本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤2.3。3.根据权利要求2所述的数据样本模型训练方法,其特征在于:步骤2.1中,数据样本与数据样本之间的距离通过如下方法获得,计算A数据样本到B数据样本方向的距离C1,计算方法为用A数据样本对应的A样本评估模型测试B数据样本,获得测试指标数据M1,则距离C1=1

M1;计算B数据样本到A数据样本方向的距离C2,计算方法为用B数据样本对应的B样本评估模型测试A数据样本,获得测试指标数据M2,则距离C2=1

M2;A数据样本与B数据样本之间的距离C=(C1+C2)/2。4.根据权利要求3所述的数据样本模型训练方法,其特征在于:步骤2.4中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值,或者是指,该数据样本与簇内每套数据样本之间距离的最大值。5.根据权利要求2所述的数据样本...

【专利技术属性】
技术研发人员:郭方红
申请(专利权)人:郭方红
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1