对非饱和信息进行迭代建模的方法技术

技术编号：22308230 阅读：71 留言：0更新日期：2019-10-16 08:20

本发明专利技术涉及对非饱和信息进行迭代建模的方法，包括：A.训练非饱和的数据样本得到数据样本的概率值；B.设置第一置信度列表，根据概率值与列表中置信度的关系对数据样本进行分层，得到最终置信度上界和最终置信度下界；C.再次分层得到训练数据集；D.预测得到训练数据集以外的数据样本的概率值，并根据最终置信度的上/下界对训练数据集以外的数据样本进行分层，分层结果与训练数据集中的正样本和负样本合并为新训练数据集；E.迭代步骤B～D，直到所述训练数据集以外的数据样本无法再分层，得到最终形成的新训练数据集。本发明专利技术实现了一种通用的模型，能够对各种场合下应用的非饱和信息进行的分类，具有较高的准确性和效率。

Iterative modeling method for unsaturated information

全部详细技术资料下载

【技术实现步骤摘要】
对非饱和信息进行迭代建模的方法
本专利技术涉及根据信息样本的类型进行建模方法，具体讲是对非饱和信息进行迭代建模的方法。
技术介绍
在数据挖掘领域，通常样本标签需要一段时间的观察期才能得到，因此当时间窗口不足，数据较少的情况下，样本标签会存在比实际情况少或者置信度不够的情况。这种情况会导致在实际建模过程中出现部分样本难分(在预测过程中没有足够的置信度证明是正样本还是负样本)，从而使得模型整体的AUC(AreaUnderCurve)，KS(在模型中用于区分预测正负样本分隔程度的评价指标)等指标较低，模型效果无法达到理想值。而模型的好坏与样本分类的好坏是成正比的，也就是和AUC的大小成正比。对于数据不足或者标签不置信导致的难分样本情况，目前主流的解决方案有以下两种：1：数据扩充，将相似领域的数据引入，例如需要对领域A进行建模，但是缺乏足够的数据，将表现相似的B领域的数据引入一部分加入建模样本。2：迁移学习，在有充分数据样本的领域建模得到一个基准模型，然后用目标样本数据对模型参数进行微调从而应用到目标领域中。例如在图片分类中，需要建立一个对狼群的识别模型，但是由于狼的图片样本较少，可以先用家犬图片做预训练，提取到犬科动物的共有基础特征后，在用狼的图片进行再训练，对模型进行修正，最终得到能够识别狼的模型。以上两种方法的缺点分别有：1：做数据扩充虽然解决了数据不足的问题，但同时引入了噪声和偏差。新样本和原来的样本的分布式是不完全一致的，因此形成的训练样本与模型用于预测的目标领域样本分布也是有区别的，样本分布不一致会导致模型有偏，在预测过程中，得到预测结果误差会更大。2...

【技术保护点】
1.对非饱和信息进行迭代建模的方法，其特征包括：A.通过现有的建模方式对非饱和信息的数据样本进行训练，得到数据模型和表示数据样本为正样本或负样本概率的概率值Pi，其中i为概率值的个数，i的最大值与数据样本的数量相同；B.根据设定的置信度步长得到包含第一置信度上界和第一置信度下界的列表，根据各数据样本对应的概率值Pi与所述列表中第一置信度上界和第一置信度下界之间的关系，对数据样本进行分层，将计算得到的AUC最大值对应的最终置信度上界和最终置信度下界；C.根据所述的最终置信度上界和最终置信度下界对数据样本再次分层，得到包含正样本和负样本的训练数据集，通过对训练数据集进行训练，得到分类器；D.通过分类器的预测得到训练数据集以外的数据样本的概率值Pi，并根据所述的最终置信度上界和最终置信度下界对训练数据集以外的数据样本进行分层，并将本次分层结果与所述的正样本和负样本进行对应合并，形成新训练数据集；E.迭代步骤B～步骤D，直到所述训练数据集以外的数据样本无法再分层，得到最终形成的新训练数据集。

【技术特征摘要】
1.对非饱和信息进行迭代建模的方法，其特征包括：A.通过现有的建模方式对非饱和信息的数据样本进行训练，得到数据模型和表示数据样本为正样本或负样本概率的概率值Pi，其中i为概率值的个数，i的最大值与数据样本的数量相同；B.根据设定的置信度步长得到包含第一置信度上界和第一置信度下界的列表，根据各数据样本对应的概率值Pi与所述列表中第一置信度上界和第一置信度下界之间的关系，对数据样本进行分层，将计算得到的AUC最大值对应的最终置信度上界和最终置信度下界；C.根据所述的最终置信度上界和最终置信度下界对数据样本再次分层，得到包含正样本和负样本的训练数据集，通过对训练数据集进行训练，得到分类器；D.通过分类器的预测得到训练数据集以外的数据样本的概率值Pi，并根据所述的最终置信度上界和最终置信度下界对训练数据集以外的数据样本进行分层，并将本次分层结果与所述的正样本和负样本进行对应合并，形成新训练数据集；E.迭代步骤B～步骤D，直到所述训练数据集以外的数据样本无法再分层，得到最终形成的新训练数据集。2.如权利要求1所述的对非饱和信息进行迭代建模的方法，其特征为：步骤B所述的对数据样本进行分层，是先定义第一置信度上界和第一置信度下界分别在0～1之间，且第一置信度上界＞第一置信度下界，再根据设定的置信度步长得到包含第一置信度上界和第一置信度下界的列表，将所有的概率值Pi与列表中每组的第一置信度上界和第一置信度下界进行数值大小的比较：概率值Pi＞第一置信度上界的数据样本为第一上层；概率值Pi＜第一置信度下界的数据样本为第一下层；第一置信度...

【专利技术属性】
技术研发人员：王张琦，韩晗，刘嵩，刘宇超，
申请(专利权)人：四川新网银行股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人