The invention discloses a reinforced regression tree algorithm for two value screening method of classification based on factor, (1), collect data, establish the target variable predictors data set; (2), enhanced regression tree modeling using target variables and all factors based on the calculation of factor importance ranking; (3) and the correlation analysis of all factors, analysis Pearson correlation matrix and screening; (4) and enhance the regression tree algorithm to set up a new model based on objective factors and variables retained, calculate forecast error, calculation of weight factor and minimum factor ranking, excluding the importance, until the remaining factor number is less than or equal to 2; (5), (4) the comparison step enhanced predictive deviation of regression tree model, prediction of the minimum deviation increases all factor regression tree model used as The best combination of factors. The invention has established a quantitative factor selection system, and the result is reliable and the application field is wide.
【技术实现步骤摘要】
基于增强回归树算法的面向二值分类的因子筛选方法
本专利技术涉及因子筛选
,具体是一种适用于农业、环境、生态、水文、医学地理(如流行病学)、灾害预警预报和气象(如天气预报)等诸多领域的基于增强回归树算法的面向二值分类的因子筛选方法。
技术介绍
因子筛选是农业、环境、生态、水文、医学地理(如流行病学)、灾害预警预报和气象(如天气预报)等诸多领域中研究二值分类目标变量时需要解决的首要问题。以往的研究多采用相关系数法和逐步回归分析法。相关系数法是对所有因子进行相关性分析,剔除相关性较高的因子,然而对于存在较高相关性的因子组合中被剔除因子的选择完全是主观的。逐步回归分析法的一个局限是预先假定有单一的最优因子子集再进行识别,然而常常并没有唯一的最优子集;另一个局限是当因子间存在高度相关时,可能会得到不合理的子集。近年来,国内外学者尝试了诸多新的因子筛选方法,主要包括主成分分析、聚类分析、因子分析、判别分析和基于模糊数学的方法等。然而,这些方法都存在着一定的局限性,如:主成分分析需要保证所提取的前几个主成分累计贡献率达到一个较高的水平,所提取的主成分命名清晰度低,此外,当主成分的因子负荷的符号有正有负时,综合评价函数意义不明确;聚类分析对变量的多元正态性和方差齐性等要求较高,且当样本量较大时,获得聚类结论较为困难;因子分析对数据量和成分有具体要求,存在一定的局限性,此外,此方法在计算因子得分时,采用的是最小二乘法,在一些情况下可能会失效;判别分析不适宜处理因子间存在多重共线性的情况;基于模糊数学的方法则对指标权重向量的确定存在一定的主观性。现有方法的共同不足之处在 ...
【技术保护点】
一种基于增强回归树算法的面向二值分类的因子筛选方法,其特征在于:具体包括以下步骤:(1)、搜集用于二值分类的目标变量和预测因子,建立目标变量‑预测因子数据集;(2)、基于目标变量和全部预测因子,利用增强回归树算法建立增强回归树模型,计算各预测因子重要性并排序;(3)、对全部预测因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选,对于皮尔逊相关系数绝对值≥0.80的因子组合,根据步骤(2)计算的因子重要性保留该因子组合中重要性最大的因子,并剔除该因子组合中的其他全部因子;(4)、基于目标变量和保留下来的因子,利用增强回归树算法建立新的增强回归树模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,若剔除重要性最小的因子后保留下来的因子数量>2,则基于目标变量和这些保留下来的因子重复执行本步骤直至保留下来的因子数量≤2;(5)、比较步骤(4)中各增强回归树模型的预测偏差,将预测偏差最小的增强回归树模型所采用的全部预测因子作为最佳预测因子组合。
【技术特征摘要】
1.一种基于增强回归树算法的面向二值分类的因子筛选方法,其特征在于:具体包括以下步骤:(1)、搜集用于二值分类的目标变量和预测因子,建立目标变量-预测因子数据集;(2)、基于目标变量和全部预测因子,利用增强回归树算法建立增强回归树模型,计算各预测因子重要性并排序;(3)、对全部预测因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选,对于皮尔逊相关系数绝对值≥0.80的因子组合,根据步骤(2)计算的因子重要性保留该因子组合中重要性最大的因子,并剔除该因子组合中的其他全部因子;(4)、基于目标变量和保留下来的因子,利用增强回归树算法建立新的增强回归树模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,若剔除重要性最小的因子后保留...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。