预测模型训练、数据预测方法、装置、设备及存储介质制造方法及图纸

技术编号:32273692 阅读:16 留言:0更新日期:2022-02-12 19:38
本发明专利技术实施例公开了一种预测模型训练、数据预测方法、装置、设备及存储介质,预测模型训练方法包括:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。本发明专利技术实施例的技术方案能够提高客流数据预测的准确性。性。性。

【技术实现步骤摘要】
预测模型训练、数据预测方法、装置、设备及存储介质


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种预测模型训练、数据预测方法、装置、设备及存储介质。

技术介绍

[0002]近年来,客流预测受到了各界广泛关注,在交通拥堵治理、城市规划等领域,客流预测能力都能带来较大的价值。
[0003]目前,区域人流量预测多数是使用时间序列预测方法。由于传统的线性回归算法仅对于线性时序数据能有较优的预测效果,因此对于非线性的时序数据需要使用LSTM(Long Short

Term Memory,长短期记忆网络)或XGBoost(梯度提升算法的机器学习函数库)等具备较优非线性拟合能力的算法进行预测。
[0004]专利技术人在实现本专利技术的过程中,传统的线性回归算法仅对于线性时序数据能有较优的预测效果,对于非线性时序数据的预测存在以下不足:(1)、客流预测的特征空间较大,逻辑回归的性能较差;(2)、容易欠拟合,造成客流预测的准确度较低;(3)、无法有效处理大量多类特征或变量;(4)无法有效利用客流预测的非线性特征。由此可见,现有的进行客流预测的线性回归算法的预测准确率较低。

技术实现思路

[0005]本专利技术实施例提供一种预测模型训练、数据预测方法、装置、设备及存储介质,能够提高客流数据预测的准确性。
[0006]第一方面,本专利技术实施例提供了一种预测模型训练方法,包括:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
[0007]第二方面,本专利技术实施例还提供了一种数据预测方法,其特征在于,包括:获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过第一方面所述的预测模型训练方法训练获得。
[0008]第三方面,本专利技术实施例还提供了一种预测模型训练装置,包括:全量客流量样本数据获取模块,用于获取目标地理区域的全量客流量样本数据;
其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;预设客流量预测模型训练模块,用于根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。
[0009]第四方面,本专利技术实施例还提供了一种数据预测装置,包括:全量客流量实时数据获取模块,用于获取目标地理区域的全量客流量实时数据;其中,所述全量客流量实时数据包括实时客流量以及预测关联因素实时数据;所述预测关联因素实时数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;客流量预测数据获取模块,用于将所述全量客流量实时数据输入至多维度客流量预测模型,得到所述目标地理区域的客流量预测数据;其中,所述多维度客流量预测模型通过第一方面所述的预测模型训练方法训练获得。
[0010]第五方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所提供的预测模型训练方法或数据预测方法。
[0011]第六方面,本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所提供的预测模型训练方法或数据预测方法。
[0012]本专利技术实施例通过利用获取的目标地理区域的全量客流量样本数据训练预设客流量预测模型,可以得到多维度客流量预测模型,以利用多维度客流量预测模型根据目标地理区域的全量客流量实时数据预测目标地理区域的客流量预测数据。由于全量客流量样本数据包括历史客流量数据、天气数据、客流量影响日期数据以及通行班次数据等多种非线性特征数据,因此多维度客流量预测模型可以综合考虑多种客流量影响因素进行客流量预测,解决现有非线性客流预测方法存在的客流数据预测的准确性较低等问题,从而提高客流数据预测的准确性。
附图说明
[0013]图1是本专利技术实施例一提供的一种预测模型训练方法的流程图;图2是本专利技术实施例二提供的一种预测模型训练方法的流程图;图3是本专利技术实施例二提供的一种数据服从正态分布的效果示意图;图4是本专利技术实施例二提供的一种历史客流量数据分布效果示意图;图5是本专利技术实施例三提供的一种数据预测方法的流程图;图6是本专利技术实施例三提供的一种多维度客流量预测模型对客流量的拟合效果示意图;图7是本专利技术实施例四提供的一种预测模型训练装置的示意图;图8是本专利技术实施例五提供的一种数据预测装置的示意图;
图9为本专利技术实施例六提供的一种计算机设备的结构示意图。
具体实施方式
[0014]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。
[0015]另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0016]本专利技术实施例的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
[0017]实施例一图1是本专利技术实施例一提供的一种预测模型训练方法的流程图,本实施例可适用于利用多维度的样本数据训练多维度客流量预测模型的情况,该方法可以由预测模型训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图1所示,该方法包括如下操作:S110、获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项。
[0018]其中,目标地理区域可以是需要进行客流量预测的区域,如机场、火车站、客运站、公交站及地铁站等区域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测模型训练方法,其特征在于,包括:获取目标地理区域的全量客流量样本数据;其中,所述全量客流量样本数据包括历史客流量数据以及预测关联因素样本数据;所述预测关联因素样本数据包括天气数据、客流量影响日期数据以及通行班次数据中的至少一项;根据所述全量客流量样本数据训练预设客流量预测模型,得到多维度客流量预测模型。2.根据权利要求1所述的方法,其特征在于,在所述获取目标地理区域的全量客流量样本数据之后,还包括:在确定所述全量客流量样本数据存在第一异常样本数据的情况下,对所述全量客流量样本数据进行数据填充;和/或在确定所述全量客流量样本数据存在第二异常样本数据的情况下,对所述全量客流量样本数据进行数据清洗。3.根据权利要求2所述的方法,其特征在于,所述对所述全量客流量样本数据进行数据填充,包括:获取所述全量客流量样本数据对应的样本采集时间;根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本采集时间以及预设数据填充规则对所述全量客流量样本数据进行数据填充,包括:确定所述第一异常样本数据对应的目标样本采集时间;其中,所述目标样本采集时间对应的样本数据为空;确定所述目标样本采集时间与所述目标样本采集时间的前一时刻样本采集时间之间的时间差值;在确定所述时间差值小于或等于时间差值阈值的情况下,获取所述前一时刻样本采集时间对应的样本数据,并根据所述前一时刻样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据;在确定所述时间差值大于所述时间差值阈值的情况下,获取间隔设定周期的样本采集时间对应的样本数据,并根据所述间隔设定周期的样本采集时间对应的样本数据填充所述目标样本采集时间对应的样本数据。5.根据权利要求2所述的方法,其特征在于,所述对所述全量客流量样本数据进行数据清洗,包括:在确定所述全量客流量样本数据服从正态分布的情况下,计算所述全量客流量样本数据的标准差;根据所述全量客流量样本数据的标准差对所述全量客流量样本数据进行数据清洗;在确定所述全量客流量样本数据不服从正态分布的情况下,确定所述全量客流量样本数据的基准参考数据;其中,所述基准参考数据根据所述全量客流量样本数据的平均值确定;根据所述基准参考数据对所述全量客流量样本数据进行数据清洗。6.根据权利要求1所述的方法,其特征在于,所述预设客流量预测模型基于如下公式表
达:达:其中,^y表示目标地理区域在k时刻的客流量预测值,x表示所述全量客流量样本数据的时序特征变量,k表示时间,n表示目标地理区域标识,time(n)表示目标地理区域历史客流时间,weekday(n)和isHoliday(n)表示客流量影响日期数据(工作日周末表示、是否法定节假日),y
n
(k

p)表示第k

p时刻的历史客流量,y
n
(k

p+1)表示第k

p+1时刻的历史客流量,y
n
(k

1)表示第k

1时刻的历史客流量,arrivecnt(k)表示k时刻到达目标地理区域的客流量,leavecnt(k)表示k时刻离开目标地理区域的客流量,arrivenum(k)表示k时刻到达目标地理区域的通行班次数量,leavenum(k)表示k时刻离开目标地理区域的通行班次数量,isTfyj(n)、isByyj(n)和isDwyj(n)表示不同类型气象预警,weather(n)表示天气数据。7.根据权利要求1所述的方法,其特征在于,所述根据所述全量客流量样本数据训练预设客流量预测模型,包括:根据目标函数和所述全量客流量样本数据训练预设客流量预测模型;其中,所述目标函数基于如下公式表达:其中,所述目标函数基于如下公式表达:其中,J(F)表示所述目标函数,L(F)和表示训练损失函数,Ω(F)和Ω(f
t
)表示正则项,γ表示权重参数,T表示极端梯度提升算法中树的叶子节点数,w
j
表示每个叶子节点权重。8.根据权利要求1所述的方法,其特征在于,在所述根据所述全量客流量样本数据训练预设客流量预测模型之后,还包括:根据所述全量客流量样本数据确定全量客流量测试集样本数据以及所述全量客流量测试集样本数据对应的客流量真实数据;
将所述全量客流量测试集样本数据输入至所述多维度客流量预测模型,得到预测数据测试结果;计算所述预测数据测...

【专利技术属性】
技术研发人员:陈焕荣潘希铭柯凌燕张茂华杨德利高晶李玮琪郑任沈薇林哲吴育娇邓胜
申请(专利权)人:数字广东网络建设有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1