基于增强回归树算法的面向二值分类的因子筛选方法技术

技术编号:17097409 阅读:70 留言:0更新日期:2018-01-21 09:11
本发明专利技术公开了一种基于增强回归树算法的面向二值分类的因子筛选方法,(1)、数据搜集,建立目标变量‑预测因子数据集;(2)、基于目标变量和全部因子利用增强回归树算法建模,计算因子重要性并排序;(3)、对全部因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选;(4)、基于目标变量和保留下来的因子利用增强回归树算法建立新的模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,直至保留下来的因子数量≤2;(5)、比较步骤(4)中各增强回归树模型的预测偏差,将预测偏差最小的增强回归树模型所采用的全部因子作为最佳因子组合。本发明专利技术建立了定量化的因子选取体系,结果可靠,应用领域广。

Two value classification based factor screening method based on enhanced regression tree algorithm

The invention discloses a reinforced regression tree algorithm for two value screening method of classification based on factor, (1), collect data, establish the target variable predictors data set; (2), enhanced regression tree modeling using target variables and all factors based on the calculation of factor importance ranking; (3) and the correlation analysis of all factors, analysis Pearson correlation matrix and screening; (4) and enhance the regression tree algorithm to set up a new model based on objective factors and variables retained, calculate forecast error, calculation of weight factor and minimum factor ranking, excluding the importance, until the remaining factor number is less than or equal to 2; (5), (4) the comparison step enhanced predictive deviation of regression tree model, prediction of the minimum deviation increases all factor regression tree model used as The best combination of factors. The invention has established a quantitative factor selection system, and the result is reliable and the application field is wide.

【技术实现步骤摘要】
基于增强回归树算法的面向二值分类的因子筛选方法
本专利技术涉及因子筛选
,具体是一种适用于农业、环境、生态、水文、医学地理(如流行病学)、灾害预警预报和气象(如天气预报)等诸多领域的基于增强回归树算法的面向二值分类的因子筛选方法。
技术介绍
因子筛选是农业、环境、生态、水文、医学地理(如流行病学)、灾害预警预报和气象(如天气预报)等诸多领域中研究二值分类目标变量时需要解决的首要问题。以往的研究多采用相关系数法和逐步回归分析法。相关系数法是对所有因子进行相关性分析,剔除相关性较高的因子,然而对于存在较高相关性的因子组合中被剔除因子的选择完全是主观的。逐步回归分析法的一个局限是预先假定有单一的最优因子子集再进行识别,然而常常并没有唯一的最优子集;另一个局限是当因子间存在高度相关时,可能会得到不合理的子集。近年来,国内外学者尝试了诸多新的因子筛选方法,主要包括主成分分析、聚类分析、因子分析、判别分析和基于模糊数学的方法等。然而,这些方法都存在着一定的局限性,如:主成分分析需要保证所提取的前几个主成分累计贡献率达到一个较高的水平,所提取的主成分命名清晰度低,此外,当主成分的因子负荷的符号有正有负时,综合评价函数意义不明确;聚类分析对变量的多元正态性和方差齐性等要求较高,且当样本量较大时,获得聚类结论较为困难;因子分析对数据量和成分有具体要求,存在一定的局限性,此外,此方法在计算因子得分时,采用的是最小二乘法,在一些情况下可能会失效;判别分析不适宜处理因子间存在多重共线性的情况;基于模糊数学的方法则对指标权重向量的确定存在一定的主观性。现有方法的共同不足之处在于,无法在保证不损失原始因子信息量的前提下提供适合各种数据类型的定量化的因子筛选方法。
技术实现思路
本专利技术的目的是提供一种适合各种数据类型、能够确保原始因子信息量不损失、能够有效解决因子间存在多重共线性问题、定量化的基于增强回归树算法的面向二值分类的因子筛选方法,。本专利技术的技术方案如下:一种基于增强回归树算法的面向二值分类的因子筛选方法,其特征在于:具体包括以下步骤:(1)、搜集用于二值分类的目标变量和预测因子,建立目标变量-预测因子数据集;(2)、基于目标变量和全部预测因子,利用增强回归树算法建立增强回归树模型,计算各预测因子重要性并排序;(3)、对全部预测因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选,对于皮尔逊相关系数绝对值≥0.80的因子组合,根据步骤(2)计算的因子重要性保留该因子组合中重要性最大的因子,并剔除该因子组合中的其他全部因子;(4)、基于目标变量和保留下来的因子,利用增强回归树算法建立新的增强回归树模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,若剔除重要性最小的因子后保留下来的因子数量>2,则基于目标变量和这些保留下来的因子重复执行本步骤直至保留下来的因子数量≤2;(5)、比较步骤(4)中各增强回归树模型(在步骤(4)中,由于每剔除一个因子,就会建立一个新的增强回归树模型,所以会有多个增强回归树模型)的预测偏差,将预测偏差最小的增强回归树模型所采用的全部预测因子作为最佳预测因子组合。作为本专利技术上述技术方案的进一步改进:所述步骤(2)中所建立的增强回归树模型重复运行100次,各预测因子重要性为所述模型100次计算结果的平均值。所述步骤(4)中所建立的增强回归树模型采用十折交叉验证法进行预测偏差的计算并重复运行100次,将所述模型100次计算结果取平均作为该模型的预测偏差。本专利技术的有益效果:1、本专利技术在相关性分析的基础上,依据增强回归树算法计算的各因子重要性剔除存在高度相关性的因子,并利用增强回归树算法逐步剔除对模型贡献最小的因子,能够有效解决现有因子筛选方法中存在的主观性问题,能够在确保信息不损失的前提下有效解决了因子间存在多重共线性的问题,能够有效确定影响目标变量的关键因子,能够利用各种数据类型(包括连续型和离散型),且不要求数据正态分布。2、本专利技术通过重复运行增强回归树模型取平均值,进一步提高了算法的稳定性,具有精度高、定量化、可操作性强和应用范围广等优点,可用于农业、环境、生态、水文、医学地理(如流行病学)、灾害预警预报和气象(如天气预报)等诸多领域的面向二值分类的因子筛选过程。附图说明图1为本专利技术实施例的基本实施流程示意图。图2为本专利技术实施例中的皮尔逊相关矩阵示意图。图3为本专利技术实施例中各增强回归树模型预测偏差比较的示意图。具体实施方式本专利技术实施例中增强回归树算法(boostedregressiontrees)采用较为常用的gbm软件包(https://www.r-project.org/),基于R软件平台,结合祁连山地区草毡层(是中国土壤系统分类中的一个诊断层)数据(点状数据,作为目标变量)和环境因子数据(面状栅格数据,作为预测因子)为例进行详细说明。参见图1,本专利技术实施例一种基于增强回归树算法的面向二值分类的因子筛选方法,具体步骤如下:1、搜集用于草毡层二值分类的目标变量和预测因子,建立目标变量-预测因子数据集。本实施例的草毡层数据(目标变量)来源于国家自然科学基金重点项目“黑河流域关键土壤属性数字制图研究”(41130530)。草毡层数据样点共计128个,其中54个为草毡层(作为二值分类中的1值),74个为非草毡层(作为二值分类中的0值)。预测因子数据来源于“黑河流域生态-水文过程综合遥感观测联合试验”(http://westdc.westgis.ac.cn),包括遥感数据(30m分辨率,Landsat5TM)、地形数据(30m分辨率,ASTERGDEM)和气候数据(1km分辨率空间分布图,包括温度和降水)。利用ArcMap9.3软件平台将遥感、地形和气候数据(重采样成30m分辨率)图层进行几何校正(使用Georeferencing工具),提取遥感预测因子和气候预测因子;利用地理科学自动分析系统(SystemforAutomatedGeoscientificAnalysis)提取地形预测因子。提取的预测因子共计26个,编号分别为V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25和V26。利用ArcMap空间分析功能(使用ExtractValuestoPoints工具),提取128个样点对应的26个预测因子数值,并将草毡层的样点值(0,1值)及其所对应的26个预测因子数值集合在一个.csv文件中。2、利用增强回归树算法建模,计算各预测因子重要性并排序。基于草毡层的样点值(目标变量)和全部预测因子(步骤1中的.csv文件),利用增强回归树算法建模。所建立的增强回归树模型参数设定包括:数据分布类型(distribution),本实施例中设定为“伯努利(bernoulli)”(用于二值分类);树复杂性(treecomplexity),一般为≥2,本实施例中设定为3;抽样率(baggingfraction),一般为0.50-0.75,本实施例中设定为0.50;调试学习率(learningrate)使最佳树数量(numberoftrees)≥1000,本实施例中将学习率设定本文档来自技高网
...
基于增强回归树算法的面向二值分类的因子筛选方法

【技术保护点】
一种基于增强回归树算法的面向二值分类的因子筛选方法,其特征在于:具体包括以下步骤:(1)、搜集用于二值分类的目标变量和预测因子,建立目标变量‑预测因子数据集;(2)、基于目标变量和全部预测因子,利用增强回归树算法建立增强回归树模型,计算各预测因子重要性并排序;(3)、对全部预测因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选,对于皮尔逊相关系数绝对值≥0.80的因子组合,根据步骤(2)计算的因子重要性保留该因子组合中重要性最大的因子,并剔除该因子组合中的其他全部因子;(4)、基于目标变量和保留下来的因子,利用增强回归树算法建立新的增强回归树模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,若剔除重要性最小的因子后保留下来的因子数量>2,则基于目标变量和这些保留下来的因子重复执行本步骤直至保留下来的因子数量≤2;(5)、比较步骤(4)中各增强回归树模型的预测偏差,将预测偏差最小的增强回归树模型所采用的全部预测因子作为最佳预测因子组合。

【技术特征摘要】
1.一种基于增强回归树算法的面向二值分类的因子筛选方法,其特征在于:具体包括以下步骤:(1)、搜集用于二值分类的目标变量和预测因子,建立目标变量-预测因子数据集;(2)、基于目标变量和全部预测因子,利用增强回归树算法建立增强回归树模型,计算各预测因子重要性并排序;(3)、对全部预测因子进行相关性分析,分析皮尔逊相关矩阵并进行筛选,对于皮尔逊相关系数绝对值≥0.80的因子组合,根据步骤(2)计算的因子重要性保留该因子组合中重要性最大的因子,并剔除该因子组合中的其他全部因子;(4)、基于目标变量和保留下来的因子,利用增强回归树算法建立新的增强回归树模型,计算预测偏差,计算因子重要性并排序,剔除重要性最小的因子,若剔除重要性最小的因子后保留...

【专利技术属性】
技术研发人员:支俊俊
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1