一种基于气象信息和深度学习算法的多步日径流预报方法技术

技术编号：29676568 阅读：28 留言：0更新日期：2021-08-13 21:59

本发明专利技术一种基于气象信息和深度学习算法的多步日径流预报方法，第一阶段利用最大互信息系数MIC方法对气象数据集进行特征选择作为模型的预测因子候选输入，采用互相关函数CCF和偏自相关函数PACF对观测径流和降雨量的历史滞后数据进行选择作为模型的预测因子候选输入；第二阶段先对选定的预测因子进行数据尺度缩放，然后将数据集划分为训练集、验证集和测试集；第三阶段先通过网格搜索算法率定GBRT模型参数，然后使用优选的参数在测试集上实施预报。测试表明本发明专利技术方法GBRT‑MIC能够预见期内很好地进行径流预测，研究成果对协助电厂提前制定发电计划，减少水电弃水、增发水电电量、提高水电科学调度水平具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于气象信息和深度学习算法的多步日径流预报方法
本专利技术涉及水文预报领域，特别涉及一种基于气象信息和深度学习算法的多步日径流预报方法。
技术介绍
径流预报是水库优化调度的基础，在水库管理和运行中起着至关重要的作用。随着我国大江大河上梯级水电站的大规模投产，庞大的水电系统面临着非常复杂的调度问题，调度不当极易产生弃水现象，因此调度过程中对水库径流预报的精度要求较高。然而，目前日径流预报精度明显不足，特别对于我国南方地区。由于台风等强对流天气影响，我国南方地区强降雨通常集中在几天之内，低精度的径流预报容易导致水电站在灾害发生7-15天无法制定合理的发电计划，造成不必要的弃水，带来巨大的经济损失。另一方面，受到气候变化和人类活动的影响，流域产流特性和来水特征经常发生变化，往往需要频繁重新建立日径流预报模型，并根据近期实际径流和气象资料对模型参数进行重新计算和校正。这也给水库日径流预报带来了困难。径流由于其高度的复杂性、非平稳性、动态性和非线性而难以被准确预测，尽管目前已经对径流产生的客观规律有较为深刻地认识，但是受限...

【技术保护点】
1.一种基于气象信息和深度学习算法的多步日径流预报方法，其特征在于，包括三阶段，第一阶段利用最大互信息系数MIC方法对气象数据集进行特征选择作为模型的预测因子候选输入，采用互相关函数CCF和偏自相关函数PACF对观测径流和降雨量的历史滞后数据进行选择作为模型的预测因子候选输入；第二阶段先对选定的预测因子进行数据尺度缩放，然后将数据集划分为训练集、验证集和测试集；第三阶段先通过网格搜索算法率定GBRT模型参数，然后使用优选的参数在测试集上实施预报；所有的阶段都是基于Python语言和scikit-learn模块实现；具体步骤如下：/n步骤1.应用MIC、CCF和PACF进行GBRT-MIC模型的...

【技术特征摘要】
1.一种基于气象信息和深度学习算法的多步日径流预报方法，其特征在于，包括三阶段，第一阶段利用最大互信息系数MIC方法对气象数据集进行特征选择作为模型的预测因子候选输入，采用互相关函数CCF和偏自相关函数PACF对观测径流和降雨量的历史滞后数据进行选择作为模型的预测因子候选输入；第二阶段先对选定的预测因子进行数据尺度缩放，然后将数据集划分为训练集、验证集和测试集；第三阶段先通过网格搜索算法率定GBRT模型参数，然后使用优选的参数在测试集上实施预报；所有的阶段都是基于Python语言和scikit-learn模块实现；具体步骤如下：
步骤1.应用MIC、CCF和PACF进行GBRT-MIC模型的输入选择
输入数据集包含两部分：气象数据集和观测数据集的历史数据；针对气象数据集，先计算径流数据与根据经验选择的多个气象数据变量的MIC；然后根据MIC的计算结果对气象变量进行降序排列；针对观测数据集，先计算径流变量与滞后一个或多个时段的历史径流变量的PACF，比较PACF与其95％的置信区间，如果某个滞后时段的径流的PACF没有落入置信区间，则将这个滞后时段的数据作为输入，然后计算径流变量与滞后一个或多个时段的历史降雨观测变量的CCF，比较CCF与其95％的置信区间，如果某个滞后时段的降雨的CCF没有落入置信区间，则将这个滞后时段的数据作为输入；若CCF递减且多阶滞后仍然没有落入95％的置信区间，则将第一时段滞后的降雨数据变量单独构成一个输入集合、第一时段滞后和第二时段滞后的降雨数据变量构成第二个输入集合，以此类推组成多个输入集合，再在每个集合中添加PACF选择的滞后一个或多个时段的历史径流观测变量；最后，PACF选择的滞后一个或多个时段的历史径流观测变量再单独作为一个输入集合，将所有输入集合按照试算方法得到一个最优的观测值输入集合，记为obs；
然后，根据MIC降序排列的多个气象变量中的第一个气象变量单独构成一个输入集合，第一个和第二个气象变量构成第二个输入集合，第一个、第二个和第三个气象变量构成第三个输入集合，以此类推，可以得到多个输入集合；得到的多个输入集合均和最优的观测值输入集合obs相加得到新的多个输入集合；将新的多个输入集合通过试算方法得到最优输入集合，作为GBRT-MIC模型的输入结构；
所述的试算方法按照如下方式开展将多个输入集合分别作为GBRT模型的输入：GBRT模型的参数使用Python语言中scikit-learn模块的默认参数，然后使用默认评估指标，对每个输入集合作为输入GBRT模型得到的径流预报值进行评估，通过对比评估结果，选择多个输入集合中的最优输入集合即obs，试算完成；整个试算过程需要保证选择过程中使用的参数和评估指标一致；
步骤2.数据尺度缩放与数据集划分
对于步骤1选择的输入，先将每一个变量按照下式进行数据缩放，将每个变量的数量级缩放到相同量级；

式中：xscale为被变换后的数据序列；xoriginal为原数据序列；xmax和xmin为原数据序列中的最大值和最小值；
然后将缩放后的序列按照比例划分为训练集、测试集和验证集；
步骤3.率定GBRT参数并实施预报
GBRT是一个集成预测模型，包含两个算法：决策树算法和增强算法；决策树算法需要进行优化的参数包含树的最大深度max_depth、分割内部节点所需的最小样本数min_samples_spli、一个叶子节点上最小样本数min_samples_leaf和最大叶子节点数max_leaf_nodes，增强算法包含学习率learning_rate和弱学习器的数量n_estimators；
为了尽快得到最优的参数组合，分两步对所有参数进行优化；首先，n_estimators和learning_rate分别使用默认参数或者根据经验选择；max_leaf_nodes，min_samples_leaf，max_depth和min_samples_split根据经验确定离散取值空间然后进行交叉网格取值构成参数组合，在每个预见期生成多种参数组合；其次，在确定树参数后，将学习率修正为更小的值，将n_estimators取值多个更大的值，然后进行优化确定最优的n_estimators；为了减轻计算压力，所有模型都进行并行计算，scikit-learn模块提供并行的实现；
将优化得到的参数在训练集上进行训练，然后使用训...

【专利技术属性】
技术研发人员：廖胜利，刘本希，刘战伟，刘欢，方舟，程春田，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人