【技术实现步骤摘要】
一种基于LSTM网络的多变量物流货运量预测方法
本专利技术属于机器学习和数据预测
,具体涉及一种基于LSTM网络的多变量物流货运量预测方法。
技术介绍
物流货运量预测是确定区域内物流设施发展规模与物流运能水平,规划区域内物流发展总体布局,划分区域内物流中心功能的重要依据之一,是区域物流规划决策的首要前期工作。物流货运量预测是通过收集区域内物流历史需求数据,分析物流货运量变化与各影响因素之间的关系,并利用能够充分反映物流货运量变化趋势的影响因素对其进行预测。物流货运量属于非平稳序列,且具有众多影响因素,并且数据受到经济环境与社会环境的影响会出现异常或突变的情况。因此,各种预测方法都有一定适用性、局限性。目前运用于物流货运量预测的建模方法常见的有基于自回归积分滑动平均模型(ARIMA)以及人工神经网络模型。ARIMA等回归模型虽然建模过程简便,但在对总体趋势的预测上并不稳定,常常产生滞后的现象。传统人工神经网络方法往往需要进行人工特征参数的提取,这需要较强的领域知识和经验,并且浅层机器学习在样本有限的情况下表示复杂函数的能力有限,针对复杂的非线性问题其泛化能力受到一定制约,并且传统的浅层人工神经网络还存在着收敛速度慢、容易陷入局部最优解等问题。另外,由于一般的回归模型和人工神经网络非线性逼近能力不强,难以适应多变量的时间序列预测问题。因此,需要一种方法或系统能够更加准确地预测复杂的,尤其是受外生因素影响的非平稳时间序列数据。LSTM(longshort-termmemory)网络是循环神经网 ...
【技术保护点】
1.一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:该方法包括以下步骤:/n(1)选取被预测对象的m个影响因素X′
【技术特征摘要】
1.一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:该方法包括以下步骤:
(1)选取被预测对象的m个影响因素X′1,X′2,…,X′m作为预测模型评价指标,进行相关性分析后筛选评价指标,确定评价指标中的自变量X1,X2,…,Xn,因变量物流货运量Y,m>n;获取筛选后的评价指标对应的数据集;
(2)对数据集中自变量X1,X2,…,Xn和因变量Y的原始数据序列中包含的错误数据或数据缺失情况进行更正,对更正后的数据进行预处理;将数据集划分训练集和测试集;
(3)确定用于物流货运量预测的LSTM模型结构,设置LSTM模型初始参数值;使用训练集对LSTM模型进行训练,得到训练后的LSTM模型;
(4)使用测试集对训练后的LSTM模型进行预测效果评估,当误差满足预期或达到模型训练迭代次数,停止训练,确定模型参数;否则,继续训练模型直至满足预期;
(5)模型训练完毕后,输出残差曲线及物流货运量当前的真实值和测试拟合值数据信息,对数据进行反归一化,将预测结果数据转换为与原始数据相同数量级的预测值。
2.根据权利要求1所述的一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:所述步骤(1),影响因素基于预测对象社会发展现状进行选择,分为物流发展常规相关因素,推动物流发展因素,延缓物流发展因素三类;所述物流发展常规相关因素包括地区经济总量、进出口总额;所述推动物流发展因素包括基础设施投资额;所述延缓物流发展因素包括自然灾害损失额。
3.根据权利要求1所述的一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:所述步骤(2),更正后数据预处理过程具体如下:
(2a)将数据集中时间序列数据Y(u-1),X1(u-1),X2(u-1),…,Xn(u-1)转化为监督学习格式的时间序列Yk(u),u表示年份,u∈[umin,umax],umin,umax分别为最小与最大年份;
(2b)对监督学习格式的时间序列Yk(u)进行归一化处理,将数据序列映射到[0,1]区间,得到归一化后的时间序列Yk′(u);
(2c)以模型训练速度最快或预测精度最高为模型训练目标,将归一化后的数据集Yk′(u),u∈[umin,umax]划分为训练集和测试集。
4.根据权利要求3所述的一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:所述步骤(2a),使用Pandasshift()函数自动创建监督学习格式的时间序列问题的框架,定义series_to_supervised()函数,将一般时间序列数据转化为监督学习格式的时间序列,具体如下:
(2a1)Pandasshift()函数给定一个数据帧,将非数值即NaN值的行向前推送或向后拉回,以创建滞后观察列和监督学习格式的时间序列数据集的预测列;数据帧每一列名字根据变量编号与时间步长命名,用于不同时间步长的时间序列预测;
(2a2)series_to_supervised(data,n_in,n_out,dropnan)函数将多变量的时间序列数据帧转化为适用于监督学习的数据帧;series_to_supervised()函数的四个参数定义如下:
data为观测序列,即函数的输入时间序列Y(u-1),X1(u-1),X2(u-1),…,Xn(u-1),表示为列表或二维的NumPy数组形式;n_in为输入时间序列的滞后步长,范围[1,len(data)],默认为1;n_out为输出时间序列的移动步长,范围为[0,len(data)-1],默认为1;dropnan为Boolean值,表示是否删除存在NaN值的行,默认为True;函数返回单一值,即转换后适用于监督学习的数据帧Yk(u),u表示年份。
5.根据权利要求3所述的一种基于LSTM网络的多变量物流货运量预测方法,其特征在于:所述步骤(2b),使用极差标准化方...
【专利技术属性】
技术研发人员:郑长江,邓夕贵,赵孝进,杨涛,杜牧青,王荣,封学军,谢守鹏,雷智鹢,翁志伟,蒋柳鹏,陈亮,王兆恒,
申请(专利权)人:河海大学,中国港湾工程有限责任公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。