【技术实现步骤摘要】
一种中小企业信用数据挖掘方法
本专利技术涉及大数据与信用评价
,具体地说是一种中小企业信用数据挖掘方法。
技术介绍
在中小企业信用评价领域,信用特征是影响中小企业信用评价效果的重要因素。但是由于中小企业信用风险的复杂性与多样性,不同的信用特征与不同种类的中小企业及中小企业信用风险的相关程度有很大的区别,而目前在进行中小企业信用评价时,信用特征的选择及构建存在较大困难,人工筛选工作量太大,而且对筛选人员的经验要求十分严格。如何构建一个预测效果良好的自动特征工程的中小企业信用数据挖掘体系是一个亟待解决的问题。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种中小企业信用数据挖掘方法,在进行中小企业信用数据挖掘与特征工程时,能够具有高预测能力的结果特征集,为后续中小企业综合信用评价提供基础。本专利技术解决其技术问题所采用的技术方案是:一种中小企业信用数据挖掘方法,基于自动特征工程实现中小企业信用数据挖掘,通过对中小企业训练样本特征数据集中的原始信用特征数据进行预处理,然后经过 ...
【技术保护点】
1.一种中小企业信用数据挖掘方法,其特征在于,基于自动特征工程实现中小企业信用数据挖掘,通过对中小企业训练样本特征数据集中的原始信用特征数据进行预处理,然后经过特征距离计算形成特征子集,并针对所述特征子集进行特征线性组合和特征非线性组合;/n使用仅经过数据预处理加工的原始信用特征、经过特征线性组合加工的线性组合特征及经过特征非线性组合加工的非线性组合特征作为训练特征集,经过训练形成基线模型,并根据训练结果进行特征重要性排序,选择具有预测价值的特征。/n
【技术特征摘要】
1.一种中小企业信用数据挖掘方法,其特征在于,基于自动特征工程实现中小企业信用数据挖掘,通过对中小企业训练样本特征数据集中的原始信用特征数据进行预处理,然后经过特征距离计算形成特征子集,并针对所述特征子集进行特征线性组合和特征非线性组合;
使用仅经过数据预处理加工的原始信用特征、经过特征线性组合加工的线性组合特征及经过特征非线性组合加工的非线性组合特征作为训练特征集,经过训练形成基线模型,并根据训练结果进行特征重要性排序,选择具有预测价值的特征。
2.根据权利要求1所述的一种中小企业信用数据挖掘方法,其特征在于,所述预处理包括对中小企业训练样本特征数据集中的原始信用特征数据进行特征过滤、缺失值填充、离散化和规范化处理;
所述特征处理,计算多维特征向量相似性,并通过设定相似性度量阈值,合并相似性特征,形成特征子集;
所述特征线性组合,针对每个特征子集,运用后向逐步回归训练每个特征子集的逻辑回归模型,形成每个特征子集的特征线性组合;
所述特征非线性组合,针对每个特征子集,训练以信息增益作为度量标准的决策树分类器,然后根据集合中决策树分类器由根节点到每个叶子节点的路径得到一系列IF-THEN规则,以这些规则作为特征非线性组合的结果。
3.根据权利要求2所述的一种中小企业信用数据挖掘方法,其特征在于,所述特征处理,针对多维特征向量相似性度量值,设定规范化后的相似性度量阈值,将小于阈值的两个特征合并形成一个特征子集,更新迭代特征之间的相似度度量,直到特征关系稳定;
所述特征非线性组合,将所述一系列IF-THEN规则作为简单规则集,精简简单规则集,以精简后的规则作为特征非线性组合的结果。
4.根据权利要求1或2或3所述的一种中小企业信用数据挖掘方法,其特征在于,根据所述训练特征集的特征,共同训练XGBoost分类器,形成所述基线模型;训练过程如下:
以XGBoost分类器作为基础模型;
运用python中的HyperOpt方法进行自动化的贝叶斯优化方法来调整基础分箱模型参数,并以模型AUC值作为基线模型的效果检验标准,选择最优的一组基线模型超参数作为最终模型参数,形成基线模型;
使用基线模型拟合训练集样本数据,记录每次迭代产生的决策树模型中,各特征出现的次数。
5.根据权利要求4所述的一种中小企业信用数据挖掘方法,其特征在于,将各特征在基线模型的每次迭代中出现的次数加总,作为该特征的特征重要性度量;并针对所有特征的重要...
【专利技术属性】
技术研发人员:崔光裕,边松华,崔乐乐,
申请(专利权)人:天元大数据信用管理有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。