一种基于机器学习的蓝莓产量预测方法技术

技术编号:28735345 阅读:25 留言:0更新日期:2021-06-06 11:40
本发明专利技术涉及一种基于机器学习的蓝莓产量预测方法,属于农作物产量预测技术领域。该方法包括:S1:生成模拟数据集:S2:数据预处理;S3:利用XGBoost选出最优特征子集;S4:构建基学习器,包括随机森林、梯度提升决策树、支持向量机;S5:构建多模型融合的Stacking集成学习元模型:选择Stacking模型集成策略将三种经过优化的基学习器作为模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,得到完整的模型;S6:评价元模型预测性能;S7:验证元模型;S8:计算特征重要性程度。本发明专利技术解决了农业系统中数据采集困难的问题,能够快速预测蓝莓产量,减少采集数据样本,提高预测精度。预测精度。预测精度。

【技术实现步骤摘要】
一种基于机器学习的蓝莓产量预测方法


[0001]本专利技术属于农作物产量预测
,涉及一种基于机器学习的蓝莓产量预测方法。

技术介绍

[0002]蓝莓与小麦、玉米等常见秸秆类作物不一样,它属于灌木丛生类作物。它的产量和大多数具有花期的作物一样,会受到蜜蜂、壁蜂等蜂类物种丰度、温度、降雨量、土壤以及一些其它环境因素的因素,但不同的是,蓝莓产量还会与其丛的扩散范围大小有关。蓝莓产量与这些因素并不总是成简单的线性关系,如温度、降雨量以及其它环境因素对蜜蜂生长发育的影响可能会导致田间蜜蜂密度和类群组成的变化,进而影响授粉服务的质量,其他管理活动、景观特征和丛的扩散范围大小也可能影响蜜蜂活动,从而对产量产生影响。这些因素导致各变量和蓝莓产量之间的关系变得愈加复杂,无法依据传统经验和方法直接预测。
[0003]目前,农业中最重要和最具挑战的任务是如何准确预测作物产量。种植者以往都是根据历史数据和经验对作物生长趋势做出预判后采取措施,以此提高作物收成。近年来,机器学习因能很好地处理非线性问题被越来越多的研究人员应用到各个领域。典型的机器学习算法通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的蓝莓产量预测方法,其特征在于,该方法具体包括以下步骤:S1:生成模拟数据集:根据蓝莓授粉模拟模型设计仿真实验生成模拟数据集;S2:数据预处理:对生成的模拟数据中各因子进行归一化处理;S3:特征选择:利用XGBoost嵌入式特征选择方法对初始特征进行重要性排序,根据重要性程度由高到低设置阈值,依次用一个、两个、三个、一直到所有预测因子建立预测模型,从而选取出最优特征子集;S4:构建基学习器:将由选取出的最优特征子集与目标变量构成的数据集划分成训练集和测试集基学习器包括随机森林RF、梯度提升决策树GBDT、支持向量机SVR三种回归模型;S5:构建多模型融合的Stacking集成学习元模型:选择Stacking模型集成策略将以上三种经过优化的基学习器作为Stacking集成学习元模型第一层,将第一层基学习器的输出作为第二层元学习器的输入进行再训练,从而得到完整的模型;第二层的元学习器选择XGBoost模型;S6:评价元模型预测性能;S7:验证元模型;S8:计算特征重要性程度:通过每个特征对Stacking集成学习元模型输出的影响程度计算出每个特征的重要性,确定影响模型输出的重要因素。2.根据权利要求1所述的蓝莓产量预测方法,其特征在于,步骤S1中,生成的模拟数据集包括13个自变量和一个因变量,具体为:蓝莓丛的扩散范围大小、蜜蜂密度、大黄蜂密度、花蜂密度、壁蜂密度、花期最高温度最大值、最高温度最小值、最高温度平均值、最低温度最大值、最低温度最小值、最低温度平均值、花期总的降雨天数、平均降雨天数以及对应的蓝莓产量。3.根据权利要2所述的蓝莓产量预测方法,其特征在于,步骤S3中,特征选择具体包括以下步骤:S31:将模拟数据集中的13个自变量组合起来构成原始的特征集合f;S32:构建目标函数;S33:计算每个特征的重要性;S34:根据计算出的每个特征的重要性,按照从大到小的顺序分别对初始的13个自变量特征进行重要性排序,根据重要性由高到低设置阈值,依次用一个、两个、三个、一直到十三个预测因子分别建立预测模型,并用相关系数R2值来比较不同特征集合的好坏,将R2最高的特征集合作为最终最优特征子集,进行接下来的模型训练。4.根据权利要3所述的蓝莓产量预测方法,其特征在于,步骤S32中,构建目标函数具体包括:所用的基本模型为回归树,XGBoost的目标函数由损失函数和正则项两部分组成,损失函数的计算公式为:其中,N为...

【专利技术属性】
技术研发人员:屈洪春向蕊张兴成李元东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1