【技术实现步骤摘要】
一种基于PCA和CatBoost回归融合预测土壤渗透率的方法
[0001]本专利技术属于土壤渗透率预测
,具体涉及一种基于PCA和CatBoost回归融合预测土壤渗透率的方法。
技术介绍
[0002]土壤中污染物运移受土壤渗透率的影响,土壤渗透率的预测对于缩短施工工期、降低工程费用、指导工程污染物处理、促进软土力学等学科发展等方面具有切实意义。
[0003]现有关于土壤渗透率的机器学习预测技术主要有多元线性回归(LR)模型,例如将土壤渗透率(K)与粉砂含量(SI)、黏土含量(CL)、土壤有机质(OM)、土壤容重(BD)、土壤含水率(MC)这五个特征作为变量,构建的五元线性回归模型进行预测。这样的预测方法虽然计算简单,但是对诸如土壤类型等非数值的类别特征处理效果较差;此外,实际影响土壤渗透率的因素众多,但多元线性回归模型考虑的样本特征数量较少,且部分特征与因变量有较强的层级结构关系、不适应线性回归模型,预测精度难以保证。
[0004]随着环境问题的日益严峻,提出一种能够对类别特征进行有效处理、考虑因素更加 ...
【技术保护点】
【技术特征摘要】
1.一种基于PCA和CatBoost回归融合预测土壤渗透率的方法,其特征在于,具体步骤如下:步骤1数据收集;收集带有渗透率数值的若干个样本土壤,以这些样本的数值特征数据作为样本集,提取待预测渗透率土壤的特征数据;步骤2数据清洗;对步骤1所述样本集中缺失数据进行填补、异常数据进行剔除、并进行归一化操作;步骤3PCA主成分分析;基于PCA主成分分析方法的思想,对样本高维度数据集进行降维处理,保留重要特征并去除无关特征和冗余特征;步骤4构建CatBoost回归模型;将样本土壤的类别特征以及土壤渗透率值,加入经步骤3得到的样本新特征数据集中,进行模型训练;训练过程中采用K折交叉验证法,将加入类别特征以及土壤渗透率值的样本新特征数据集分成K个子集,将每个子集数据分别作为一次验证集,其余的K
‑
1组子集数据作为训练集,这样进行K轮训练,得到训练好的CatBoost回归模型;步骤5将待预测渗透率土壤的特征数据输入步骤4训练好的CatBoost回归模型中,得到该土壤的渗透率预测值。2.根据权利要求1所述的一种基于PCA和CatBoost回归融合预测土壤渗透率的方法,其特征在于,步骤1所述样本集、待预测渗透率土壤的特征数据均包括:黏土含量、淤泥含量、沙含量、土壤颗粒平均直径、土壤颗粒直径的标准偏差、土壤有机碳含量、土壤容重、土壤颗粒密度、饱和土壤体积含水量、不饱和土壤体积含水量、湿骨料稳定性、土壤电导率和土壤类型。3.根据权利要求2所述的一种基于PCA和CatBoost回归融合预测土壤渗透率的方法,其特征在于,步骤2的具体做法包括:步骤2.1对数据集进行异常值检测;步骤2.2对清空的数值进行缺失值填补;步骤2.3对填补后的数据集进行归一化操作,最终得到清洗后的数据集。4.根据权利要求3所述的一种基于PCA和CatBoost回归融合预测土壤渗透率的方法,其特征在于,步骤2.1的做法如下:对步骤1所得的样本集进行标准化处理,然后进行KS检验,对检验结果符合正态分布的特征,根据3σ原则检测异常值,将异常数值清空;对非正态分布的特征用四分位法进行异常值检测,将异常数值清空。5...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。