System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于改进的Stacking融合算法的企业资金需求挖掘方法和介质技术_技高网

基于改进的Stacking融合算法的企业资金需求挖掘方法和介质技术

技术编号:40109569 阅读:7 留言:0更新日期:2024-01-23 18:57
本发明专利技术提供了基于改进的Stacking融合算法的企业资金需求挖掘方法和介质,属于机器学习技术领域。具体包括:获取待挖掘企业的基本信息,建立三种预测模型,并进行差异化建模,训练预测模型;建立改进的Stacking模型,将三种预测模型作为Stacking模型的第一层的基学习模型,核岭回归模型作为Stacking模型第二层的估计模型;通过训练集数据训练改进的Stacking模型,获取资金需求预测模型;将测试集数据输入到训练完成的资金需求预测模型,设定模型的阈值为0.7,大于0.7的预测结果为有资金需要求的潜在客户。通过机器学习通过对历史企业资金需求的情况学习训练,挖掘当前企业的资金需求情况。

【技术实现步骤摘要】

本专利技术涉及基于改进的stacking融合算法的企业资金需求挖掘方法和介质,属于机器学习。


技术介绍

1、stacking是一种模型融合算法,基本思路是通过一个模型融合若干单模型的预测结果,目的是降低单模型的泛化误差,一种有效的集成方法,其中使用各种机器学习算法生成的预测被用作第二层学习算法的输入。该第二层算法经过训练,可以优化组合模型预测以形成一组新的预测。当前的企业资金需求缺少一种可靠的、准确的挖掘方式,而stacking算法的融合作用可以很好的解决预测准确度的问题。


技术实现思路

1、本专利技术目的是提供了基于改进的stacking融合算法的企业资金需求挖掘方法和介质,通过机器学习通过对历史企业资金需求的情况学习训练,挖掘当前企业的资金需求情况。

2、本专利技术为实现上述目的,通过以下技术方案实现:

3、步骤1:获取待挖掘企业的基本信息,包括企业工商信息、招聘信息、司法风险情况、新闻舆情、和政府采购信息和项目明细信息,并进行预处理构建特征数据集,并将特征数据集划分为测试集和训练集;

4、步骤2:建立三种预测模型,并进行差异化建模,训练预测模型;所述预测模型包括:随机森林模型、lightgbm模型、xgboost模型,所述随机森林模型特征筛选方式为基于rfe的特征筛选,并通过网格搜索调优进行单模型训练,所述lightgbm模型特征筛选方式为基于lightgbm的特征筛选,并通过贝叶斯优化器进行单模型训练,所述xgboost模型特征筛选方式为基于xgboost的特征筛选,并通过贝叶斯优化器进行单模型训练;

5、步骤3:建立改进的stacking模型,将三种预测模型作为stacking模型的第一层的基学习模型,核岭回归模型作为stacking模型第二层的估计模型,;

6、由于同一预测模型下对不同训练样本训练出的结果不同,根据基模型的预测准确度进行加权求和,确定模型参数;

7、将第一层基学习模型结果通过五折交叉验证得到验证集,将验证集上的5个预测输出结果纵项拼接作为第二层的输入特征,将stacking模型和单个模型catboost融合作为改进的stacking模型的附加层模型,将各模型的估计结果进行加权求和,将各模型的估计结果进行加权求和;其中,模型权重使用穷举法分配,分别计算两个附加层模型在不同权值下模型的预测准确度,选取模型预测准确度最高的权重作为模型的权重系数,所述两个附加层模型权重系数和为1;

8、步骤4:通过训练集数据训练改进的stacking模型,获取资金需求预测模型;

9、步骤5:将测试集数据输入到训练完成的资金需求预测模型,设定模型的阈值为0.7,大于0.7的预测结果为有资金需要求的潜在客户。

10、优选的,所述网格搜索调优进行单模型训练的具体方式如下:

11、确定调优参数并设置一个参数搜索空间,参数名称和初始取值空间分别为叶子节点含有的最少样本、节点可分的最小样本数、最大叶子节点数、决策树最大深度、评估样本比例、分类器数量、最大特征数;

12、所述叶子节点含有的最少样本参数搜索空间为(1-3),节点可分的最小样本数参数搜索空间为(6-8),最大叶子节点数参数搜索空间为(none、1、5、10),决策树最大深度参数搜索空间为(10-15),评估样本比例参数搜索空间为(0.5、0.6、0.7);

13、模型训练,实例化模型与评估器,将设置后的参数搜索空间带入网格搜索中进行模型的训练,通过最佳结果得出模型预测的结果,通过最佳参数得出本轮搜索超参数的最优取值;

14、调整参数搜索空间,根据上一轮的超参数的取值对参数搜索空间进行调整,若取值是参数搜索空间的最大值,则提高参数搜索空间的值,相反则降低参数搜索空间的值,继续进行模型训练,不断迭代此过程,并记录每次迭代预测分数和超参数的最优取值,直至参数空间内包含了全部参数的最优解停止迭代;

15、将所有参数的最优解代入模型。

16、优选的,所述贝叶斯优化器采用tpe算法作为概率代理模型,ei作为采集函数。

17、优选的,所述通过贝叶斯优化器进行单模型训练具体方式如下:

18、通过特殊的字典形式定义参数空间,其中键值对上的键任意设置,键值对的值为hp函数,参数包括学习速率、构造决策树的方式、每个树上的叶子数、最大深度、正则化系数、叶子可能具有的最小记录数、描述分裂的最小 gain、每次迭代时用的数据比例;

19、将hp函数输入到tpe算法中优化,使用训练集数据训练资金需求预测模型,获取预测结果,并根据预测结果修正tpe算法;

20、使用ei采集函数从修正后的tpe算法中选取最具潜力的超参数组合点;

21、设置了算法迭代次数为100,迭代完成后,停止算法执行并输出最优超参数组合和目标函数最优值。

22、优选的,所述tpe算法公式具体如下:

23、,

24、其中,y代表观测或测量到的目标函数值,表示观测域中的阈值,表示观测值,表示观测值小于的密度估计,表示观测值的损失函数大于等于的密度组成。

25、优选的,所述采集函数ei具体公式如下:

26、

27、其中,表示tpe算法的一定分位数,用于划分和,范围在(0,1)之间,p(y)为边缘概率分布;

28、优选的,同一预测模型下对不同训练样本训练出的预测模型的根据基模型的预测准确度进行加权具体方式如下:

29、通过训练集对基模型训练,得到训练结果,并且根据训练集中的真实值标签计算预测准确率,重复训练五次并记录训练结果和对应的预测准确率;

30、根据预每次训练的预测准确率精度在五次训练中预测准确率精度数值总和中所占的比例作为此次训练的精度权重;

31、对每个基模型的训练结果进行赋权,赋权后的输出结果。

32、本专利技术的优点在于:本专利技术通过stacking融合算法的优点,使用了一种多层加权融合的stacking算法来预测当前时间对资金有需求的企业。其一,在第一层stacking融合中,将三个采用不同优化器、不同特征筛选的模型进行融合,并且同一学习器模型下对不同训练样本训练出的学习器的根据预测准确度进行加权;其二,进行第二层stacking融合,将stacking模型和单个模型作为改进的stacking模型的附加层模型,将各模型的估计结果进行加权求和,挖掘当前对资金有需求的潜在客户。

本文档来自技高网...

【技术保护点】

1.一种基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,包括以下具体步骤:

2.根据权利要求1所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,所述网格搜索调优进行单模型训练的具体方式如下:

3.根据权利要求1所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,所述贝叶斯优化器采用TPE算法作为概率代理模型,EI作为采集函数。

4.根据权利要求3所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,所述通过贝叶斯优化器进行单模型训练具体方式如下:

5.根据权利要求4所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,所述TPE算法公式具体如下:

6.根据权利要求5所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,所述采集函数EI具体公式如下:

7.根据权利要求1所述的基于改进的Stacking融合算法的企业资金需求挖掘方法,其特征在于,同一预测模型下对不同训练样本训练出的预测模型的根据基模型的预测准确度进行加权具体方式如下:

8.一种基于改进的Stacking融合算法的企业资金需求挖掘装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的基于改进的Stacking融合算法的企业资金需求挖掘方法。

9.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至7任一项所述的基于改进的Stacking融合算法的企业资金需求挖掘方法。

...

【技术特征摘要】

1.一种基于改进的stacking融合算法的企业资金需求挖掘方法,其特征在于,包括以下具体步骤:

2.根据权利要求1所述的基于改进的stacking融合算法的企业资金需求挖掘方法,其特征在于,所述网格搜索调优进行单模型训练的具体方式如下:

3.根据权利要求1所述的基于改进的stacking融合算法的企业资金需求挖掘方法,其特征在于,所述贝叶斯优化器采用tpe算法作为概率代理模型,ei作为采集函数。

4.根据权利要求3所述的基于改进的stacking融合算法的企业资金需求挖掘方法,其特征在于,所述通过贝叶斯优化器进行单模型训练具体方式如下:

5.根据权利要求4所述的基于改进的stacking融合算法的企业资金需求挖掘方法,其特征在于,所述tpe算法公式具体如下:

6.根据权利...

【专利技术属性】
技术研发人员:姜树明贾其辉刘向阳韩露张艳青
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1