The invention discloses a method for constructing a scorecard based on multi-layer model to increase the dimension of model entry, which belongs to the field of large data and modeling. It solves the problem that the number of feature entry for object analysis in the existing technology is limited, not only wastes a large amount of data information resources, but also causes the effect of model prediction to be restricted. The invention obtains multi-dimensional features of object features, and carries out analysis and pre-processing of each dimension feature to obtain pre-processed multi-dimensional features; carries out more than two layers of modeling based on pre-processed multi-dimensional features and machine learning algorithm, and obtains the built model; obtains the multi-dimensional features of the object to be tested and inputs the built model to predict, if the prediction effect is achieved; Then the final model is obtained. Otherwise, the parameters and feature selection of the machine learning algorithm are adjusted and the modeling is performed again. Then the scorecard is constructed based on the final model. The present invention is used to construct a scorecard based on multi-layer model, which can increase the dimension of entry into the model.
【技术实现步骤摘要】
一种基于多层模型构建增加入模维度的评分卡的方法
一种基于多层模型构建增加入模维度的评分卡的方法,用于基于多层模型构建可增加入模维度的评分卡,属于大数据、建模领域。
技术介绍
近年来,大数据技术不断发展,让我们能够收集用户不同方面的数据,这些数据让我们得以从多个角度去刻画目标对象。对象数据进行分析时,需要通过多个维度的特征来描绘对象特征,传统的评分卡模型对对象数据进行分析时,在入模特征达到一定数量,一般为10个左右的时候,未入模特征中对模型性能提升开始快速下降,导致特征选择极为困难,出现新增特征后模型预测效果反而下降的情况。在不断丰富的外部数据环境下,已经造成了数据信息的大量浪费,也让模型预测效果受到了极大制约。同时,传统评分卡模型(即评分卡)输出结果单一,不足以满足对用户多维度数据进行描述的需求。
技术实现思路
针对上述研究的问题,本专利技术的目的在于提供一种基于多层模型构建增加入模维度的评分卡的方法,解决现有技术中对对象进行分析的入模特征数量受到局限,不仅浪费了大量的数据信息资源,且造成模型预测效果也受到了制约的问题。为了达到上述目的,本专利技术采用如下技术方案:一 ...
【技术保护点】
1.一种两层模型的构建方法,其特征在于:如下步骤:S1、获取对象的多维度特征,并对各维度特征进行分析和预处理,得到预处理后的多维度特征;S2、基于预处理后的多维度特征和机器学习算法进行两层建模,得到建好的模型;S3、将测试数据集输入建好的模型进行预测,若达到预测效果,则得到最终模型,否则调整机器学习算法的参数和特征选择,再次执行步骤S2‑S3。
【技术特征摘要】
1.一种两层模型的构建方法,其特征在于:如下步骤:S1、获取对象的多维度特征,并对各维度特征进行分析和预处理,得到预处理后的多维度特征;S2、基于预处理后的多维度特征和机器学习算法进行两层建模,得到建好的模型;S3、将测试数据集输入建好的模型进行预测,若达到预测效果,则得到最终模型,否则调整机器学习算法的参数和特征选择,再次执行步骤S2-S3。2.根据权利要求1所述的一种两层模型的构建方法,其特征在于:所述步骤S1的具体步骤为:S1.1、获取大量的对象特征信息,即获取大量对象的多维度特征,用大量对象的多维度特征构建信息库,从信息库中随机选择建模样本集和测试样本集,数据比例为7:3;S1.2、对建模样本集中的各对象的多维度特征进行分析,即对建模样本集中的单个特征,分析特征自身的分布情况、特征缺失情况和特征信息价值IV,同时分析不同特征之间的相关性;S1.3、各对象的多维度特征分析完成后进行数据预处理,即对分析完成的各特征依次进行异常特征剔除、共线特征剔除、缺失值填充、特征分箱和对特征进行证据权重转化。3.根据权利要求1所述的一种两层模型的构建方法,其特征在于:所述步骤S2中的机器学习算法为Logistic回归模型。4.根据权利要求3所述的一种两层模型的构建方法,其特征在于:所述步骤S2的具体步骤为:S2.1、对处理后的所有对象的多维度特征进行分类,并对同一分类的特征进行统一编码,其中分类方式为同一数据源分类、同一维度分类或同一衍生方式分类中的一种或者多种分类方法;S2.2、利用Logistic回归模型,为编码后的同一分类的特征建立第一层Logistic模型,得到多个第一层Logistic回归模型和模型系数,其中多个为分类数;S2.3、根据分类,利用测试样本集对每一个第一层Logistic回归模型的性能进行评估,若KS值或者AUC值表明区分度达到要求,得到多个最终的第一层Logistic回归模型,否则针对未达到要求的第一层Logistic回归模型,调整步骤2.2中Logistic回归模型参数和特征选择,再将对应的分类执行步骤S2.2-S2.3;S2.4、将第一层Logistic回归模型结果转化为评分卡,并利用评分卡计算每类特征对应的分类指数,分类指数为每类特征的分数形式;S2.5、根据步骤S2.4得到的分类指数作为新特征,先对所有新特征进行分析和处理,再对其分箱后进行证据权重转化,根据证据权重转化的新特征计算各新特征的信息价值;S2.6、基于步骤2.5得到的结果和Logistic回归模型,构建第二层Logistic回归模型,构建好第二层Logistic回归模型后,即得到建好的两层Logistic回归模型。5.根据权利要求4所述的一种两层模型的构建方法,其特征在于:所述步骤S2.5的具体步骤为:S2.51、将分类指数作为新特征并重新构造新样本集,新样本集包括新建模样本集和新测试样本集,分析新样本集中各新特征的分布情况,并分析特征之间是否存在多重共线性,由于多重共线性普遍存在,保留不存在严重多重共线性的特征,剔除存在严重多重共线性的特征中较不稳定、预测能力较弱的特征;...
【专利技术属性】
技术研发人员:冯诗炀,程序,段银春,刘洪江,赵小诣,
申请(专利权)人:成都新希望金融信息有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。