预测模型训练、数据预测方法、装置、设备及存储介质制造方法及图纸

技术编号：32273692 阅读：16 留言：0更新日期：2022-02-12 19:38

本发明专利技术实施例公开了一种预测模型训练、数据预测方法、装置、设备及存储介质，预测模型训练方法包括：获取目标地理区域的全量客流量样本数据；其中，所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据；所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项；根据所述全量客流量样本数据训练预设客流量预测模型，得到多维度客流量预测模型。本发明专利技术实施例的技术方案能够提高客流数据预测的准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
预测模型训练、数据预测方法、装置、设备及存储介质

[0001]本专利技术实施例涉及数据处理
，尤其涉及一种预测模型训练、数据预测方法、装置、设备及存储介质。

技术介绍

[0002]近年来，客流预测受到了各界广泛关注，在交通拥堵治理、城市规划等领域，客流预测能力都能带来较大的价值。
[0003]目前，区域人流量预测多数是使用时间序列预测方法。由于传统的线性回归算法仅对于线性时序数据能有较优的预测效果，因此对于非线性的时序数据需要使用LSTM（Long Short
‑
Term Memory，长短期记忆网络）或XGBoost（梯度提升算法的机器学习函数库）等具备较优非线性拟合能力的算法进行预测。
[0004]专利技术人在实现本专利技术的过程中，传统的线性回归算法仅对于线性时序数据能有较优的预测效果，对于非线性时序数据的预测存在以下不足：（1）、客流预测的特征空间较大，逻辑回归的性能较差；（2）、容易欠拟合，造成客流预测的准确度较低；（3）、无法有效处理大量多类特征或变量；（4）无法有效利用客流预测的非线性特征。由此可见，现有的进行客流预测的线性回归算法的预测准确率较低。

技术实现思路

[0005]本专利技术实施例提供一种预测模型训练、数据预测方法、装置、设备及存储介质，能够提高客流数据预测的准确性。
[0006]第一方面，本专利技术实施例提供了一种预测模型训练方法，包括：获取目标地理区域的全量客流量样本数据；其中，所述全量客流量样本数据包括历史客流量数据以及预...

【技术保护点】

【技术特征摘要】
1.一种预测模型训练方法，其特征在于，包括：获取目标地理区域的全量客流量样本数据；其中，所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据；所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项；根据所述全量客流量样本数据训练预设客流量预测模型，得到多维度客流量预测模型。2.根据权利要求1所述的方法，其特征在于，在所述获取目标地理区域的全量客流量样本数据之后，还包括：在确定所述全量客流量样本数据存在第一异常样本数据的情况下，对所述全量客流量样本数据进行数据填充；和/或在确定所述全量客流量样本数据存在第二异常样本数据的情况下，对所述全量客流量样本数据进行数据清洗。3.根据权利要求2所述的方法，其特征在于，所述对所述全量客流量样本数据进行数据填充，包括：获取所述全量客流量样本数据对应的样本采集时间；根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充。4.根据权利要求3所述的方法，其特征在于，所述根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充，包括：确定所述第一异常样本数据对应的目标样本采集时间；其中，所述目标样本采集时间对应的样本数据为空；确定所述目标样本采集时间与所述目标样本采集时间的前一时刻样本采集时间之间的时间差值；在确定所述时间差值小于或等于时间差值阈值的情况下，获取所述前一时刻样本采集时间对应的样本数据，并根据所述前一时刻样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据；在确定所述时间差值大于所述时间差值阈值的情况下，获取间隔设定周期的样本采集时间对应的样本数据，并根据所述间隔设定周期的样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据。5.根据权利要求2所述的方法，其特征在于，所述对所述全量客流量样本数据进行数据清洗，包括：在确定所述全量客流量样本数据服从正态分布的情况下，计算所述全量客流量样本数据的标准差；根据所述全量客流量样本数据的标准差对所述全量客流量样本数据进行数据清洗；在确定所述全量客流量样本数据不服从正态分布的情况下，确定所述全量客流量样本数据的基准参考数据；其中，所述基准参考数据根据所述全量客流量样本数据的平均值确定；根据所述基准参考数据对所述全量客流量样本数据进行数据清洗。6.根据权利要求1所述的方法，其特征在于，所述预设客流量预测模型基于如下公式表
达：达：其中，^y表示目标地理区域在k时刻的客流量预测值，x表示所述全量客流量样本数据的时序特征变量，k表示时间，n表示目标地理区域标识，time(n)表示目标地理区域历史客流时间，weekday(n)和isHoliday(n)表示客流量影响日期数据（工作日周末表示、是否法定节假日），y
n
(k
‑
p)表示第k
‑
p时刻的历史客流量，y
n
(k
‑
p+1)表示第k
‑
p+1时刻的历史客流量，y
n
(k
‑
1)表示第k
‑
1时刻的历史客流量，arrivecnt(k)表示k时刻到达目标地理区域的客流量，leavecnt(k)表示k时刻离开目标地理区域的客流量，arrivenum(k)表示k时刻到达目标地理区域的通行班次数量，leavenum(k)表示k时刻离开目标地理区域的通行班次数量，isTfyj(n)、isByyj(n)和isDwyj(n)表示不同类型气象预警，weather(n)表示天气数据。7.根据权利要求1所述的方法，其特征在于，所述根据所述全量客流量样本数据训练预设客流量预测模型，包括：根据目标函数和所述全量客流量样本数据训练预设客流量预测模型；其中，所述目标函数基于如下公式表达：其中，所述目标函数基于如下公式表达：其中，J(F)表示所述目标函数，L(F)和表示训练损失函数，Ω(F)和Ω(f
t
)表示正则项，γ表示权重参数，T表示极端梯度提升算法中树的叶子节点数，w
j
表示每个叶子节点权重。8.根据权利要求1所述的方法，其特征在于，在所述根据所述全量客流量样本数据训练预设客流量预测模型之后，还包括：根据所述全量客流量样本数据确定全量客流量测试集样本数据以及所述全量客流量测试集样本数据对应的客流量真实数据；
将所述全量客流量测试集样本数据输入至所述多维度客流量预测模型，得到预测数据测试结果；计算所述预测数据测...

【专利技术属性】
技术研发人员：陈焕荣，潘希铭，柯凌燕，张茂华，杨德利，高晶，李玮琪，郑任，沈薇，林哲，吴育娇，邓胜，
申请(专利权)人：数字广东网络建设有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人