当前位置: 首页 > 专利查询>郭方红专利>正文

数据样本模型训练方法及装置制造方法及图纸

技术编号:34036590 阅读:75 留言:0更新日期:2022-07-06 12:27
本发明专利技术涉及一种数据样本模型训练方法及装置,包括如下步骤:选取多套数据样本,对应每套数据样本训练一套样本评估模型;将数据样本聚类成多个簇;每个簇训练一套簇评估模型;基于多套簇评估模型,训练最终评估模型。本发明专利技术能够有效减少数据处理量,提高建模效率,训练出泛化能力强的模型。出泛化能力强的模型。出泛化能力强的模型。

Data sample model training method and device

【技术实现步骤摘要】
数据样本模型训练方法及装置


[0001]本专利技术涉及数据处理,尤其是一种数据样本模型训练方法及装置。

技术介绍

[0002]在人工智能、机器学习领域,如何建模,即如何训练一个各个场景通用(泛化能力强)的模型,一直是业内的重点和难点之一。比如有12家银行需要联合训练风险控制模型,每家银行提供一套数据样本,每份样本都含有X变量和Y变量,现有建模方法是,对每套数据样本训练一个子模型,需要遍历12个子模型训练最终的风险控制模型,数据处理量大,建模效率低。

技术实现思路

[0003]本专利技术的专利技术目的在于提供一种数据样本模型训练方法及装置,能够有效减少数据处理量,提高建模效率。
[0004]基于同一专利技术构思,本专利技术具有两个独立的技术方案:1、一种数据样本模型训练方法,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将数据样本聚类成多个簇;步骤3: 每个簇训练一套簇评估模型;步骤4:基于多套簇评估模型,训练最终评估模型。
[0005]进一步地,步骤2包括如下步骤:步骤2.本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据样本模型训练方法,其特征在于,包括如下步骤:步骤1:选取多套数据样本,对应每套数据样本训练一套样本评估模型;步骤2:将数据样本聚类成多个簇;步骤3: 每个簇训练一套簇评估模型;步骤4:基于多套簇评估模型,训练最终评估模型。2.根据权利要求1所述的数据样本模型训练方法,其特征在于:步骤2包括如下步骤:步骤2.1:将每套样本评估模型逐一测试各套数据样本,相应获得多个测试指标数据;基于测试指标数据,计算数据样本与数据样本之间的距离;步骤2.2:选取一套数据样本训练新簇;步骤2.3:判断是否有未完成聚类的数据样本,如果是,则进入步骤2.4,如果否,则结束聚类;步骤2.4:计算余下未完成聚类的每套数据样本与新簇之间的距离,选取最小距离的数据样本,判断该最小距离是否大于阈值,如果是,则返回步骤2.2,选取该最小距离的数据样本训练新簇,如果否,则将该最小距离的数据样本加入新簇,并返回步骤2.3。3.根据权利要求2所述的数据样本模型训练方法,其特征在于:步骤2.1中,数据样本与数据样本之间的距离通过如下方法获得,计算A数据样本到B数据样本方向的距离C1,计算方法为用A数据样本对应的A样本评估模型测试B数据样本,获得测试指标数据M1,则距离C1=1

M1;计算B数据样本到A数据样本方向的距离C2,计算方法为用B数据样本对应的B样本评估模型测试A数据样本,获得测试指标数据M2,则距离C2=1

M2;A数据样本与B数据样本之间的距离C=(C1+C2)/2。4.根据权利要求3所述的数据样本模型训练方法,其特征在于:步骤2.4中,数据样本与新簇之间的距离是指,该数据样本与簇内每套数据样本之间距离的平均值,或者是指,该数据样本与簇内每套数据样本之间距离的最大值。5.根据权利要求2所述的数据样本...

【专利技术属性】
技术研发人员:郭方红
申请(专利权)人:郭方红
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1