一种网约车需求模式识别与短时需求预测方法技术

技术编号:37290645 阅读:11 留言:0更新日期:2023-04-21 02:23
本发明专利技术公开了一种网约车需求模式识别与短时需求预测方法,一、对城市客运枢纽的网约车需求数据以及相关特征数据进行预处理,形成基础数据集;二、基于基础数据集,开发改进的时间序列K

【技术实现步骤摘要】
一种网约车需求模式识别与短时需求预测方法


[0001]本专利技术涉及交通需求预测
,尤其是涉及一种网约车需求模式识别与短时需求预测方法。

技术介绍

[0002]城市客运枢纽是旅客集散的中心,在客运交通运输过程中发挥着组织、协调、服务的重要作用。城市客运枢纽旅客的激增和滞留,不仅给人民群众的出行带来不便,同时存在重大安全隐患。随着互联网技术的提升,基于共享出行理念的网约车服务迅猛发展,成为保障旅客便捷出行的重要手段。
[0003]目前,对于城市客运枢纽网约车需求规律和需求预测的相关研究较少,行业主管部门及网约车平台主要凭借经验部署城市客运枢纽的运力调度工作,存在保障不精准、调运不及时等问题。为了有效治理城市客运枢纽客流激增现象,提高网约车调度效率,迫切需要对网约车需求进行精准预测。本专利技术综合利用多源数据,提出了数据特征驱动的网约车需求模式分析和短时需求预测方法,能够为城市客运枢纽的客流管理提供决策依据。

技术实现思路

[0004]本专利技术的目的是提供一种网约车需求模式识别与短时需求预测方法,针对机场、火车站等城市交通枢纽,识别出多种网约车需求模式,在不增加运营成本的前提下,利用多源异构的城市级数据资源,对网约车需求模式进行分析,并预测未来一段时间的网约车需求量。
[0005]为实现上述目的,本专利技术提供了一种网约车需求模式识别与短时需求预测方法,包括以下步骤:步骤S1:多源数据预处理及特征提取,筛选出城市客运枢纽的网约车需求模式识别与短时预测场景适用的多源数据,将多源数据作为初始数据,以一天作为一个样本周期,对所述初始数据进行预处理,预处理包括填补缺失值,数据平滑,筛选并修正异常值等操作;将初始数据以特定的时间粒度汇聚,并对相关时间、天气、特殊事件等特征进行全面提取,得到基础数据集;步骤S2:网约车需求模式识别,基于改进的时间序列K

means聚类算法,以一天作为一个样本周期,对步骤S1中基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合;步骤S3:网约车需求短时预测算法,针对步骤S2获得的每种典型网约车需求模式,基于该类别的所有数据样本,分别验证短时需求预测模型的有效性,并从中选择最适合的短时需求预测算法。
[0006]步骤S4:需求模式匹配与短时需求预测,基于实时获取的特征数据,匹配步骤S2中得到的网约车需求模式,根据适配的网约车需求模式,调用对应的短时预测算法,预测网约车的短时需求量。
[0007]步骤S1中所述多源数据包括:网约车需求数据、城市客运枢纽到站客流数据、温度
数据、降水数据、地铁运营状态数据、特殊事件数据、极端天气数据、百度指数数据。
[0008]优选的,步骤S1的预处理具体为:预处理中缺失值处理的实现为,以一天作为一个样本周期,针对连续缺失数据为至多两个的缺失数据,取值为和前一个最近的值;针对连续缺失数据为至少两个的缺失数据,采用线性插值方法对数据缺失值进行填补,假设在连续时间段内检测到缺失值,线性插值方法填补缺失值的公式如下:其中,表示在时间段时记录的数据数值,表示在时间段时记录的数据数值;预处理中异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差,其中第种数据在样本周期第个时刻下的样本数据的异常值处理公式为:其中,表示第种数据在样本周期第时刻下的数据;表示异常值处理后的数据;表示一个样本周期中样本数据的均值;表示一个样本周期中样本数据的标准差;表示一个样本周期的全部样本数量;表示数据种类的数量;表示数据集天数;预处理中数据平滑处理的实现为,基于移动平均的网约车需求数据平滑,移动平均法是一种数据平滑技术,基本思想是根据时间序列逐项推移,依次计算包含一定项数的时序平均值,以反映长期趋势的方法,其本质是一种低通滤波,目的是过滤掉时间序列中的高频扰动,保留有用的低频趋势,消除周期变动和不规则变动的影响,显示出长期趋势。设有一个时间序列,基于滑动窗口的思想,按数据点顺序逐点推移求出个数的平均数,得到一次移动平均数:其中,表示时刻下的网约车需求数据;表示平滑处理后的网约车需求数据;表示滑动窗口的大小;表示一个样本周期的全部样本数量。当移动一个时刻,就增加一个新进数据,去掉一个远期数据,得到一个新的平均数。
[0009]优选的,步骤S1对相关特征进行全面提取操作具体如下:多源数据融合:统一将多源数据以特定的时间粒度汇聚,并将多源数据整合为结构化数据集;特征提取:分别提取融合后数据集的日期特征、天气特征、城市客运枢纽到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征;
相关性分析:计算各特征之间的相关性系数,根据皮尔森相关系数得到各个特征之间的相关程度,计算方法如下:皮尔森相关系数反映两个变量和的线性相关程度,值介于

1到1之间。优选的,步骤S2具体包括:步骤S21:对基础数据集进行描述性统计分析,得到网约车下单需求分布规律;步骤S22:确定聚类指标,根据需求分布规律,选取相应的聚类指标;在进行聚类分析的过程中,为防止数量级别大的指标对结果产生干扰,需要对数据进行归一化处理;步骤S23:确定权重系数,使用加权变异系数K

means聚类方法,该方法在所有聚类指标之间分配不同的权重;步骤S24:改进K

means聚类算法识别网约车需求模式:确定最佳聚类数目后,对所述聚类指标使用改进K

means聚类算法识别网约车需求模式。优选的,步骤S2中所述多维特征指标是指根据时间、特殊事件等特征确定的聚类指标,所述网约车需求模式集合包括不同模式下网约车需求的时间序列数据集合。优选的,所述步骤S3中短时需求预测模型包括ARIMA、XGBoost、RF、BiLSTM、CNN等。选择短时需求预测算法,具体如下:分别计算ARIMA、XGBoost、RF、BiLSTM、CNN等不同短时预测模型的RMSE、MAE、MAPE、R2指标,根据评价指标值得到不同模式下的最佳短时需求预测算法及参数值,公式如下:得到不同模式下的最佳短时需求预测算法及参数值,公式如下:得到不同模式下的最佳短时需求预测算法及参数值,公式如下:得到不同模式下的最佳短时需求预测算法及参数值,公式如下:其中,为短时预测模型对样本的预测值,为真实值。优选的,步骤S23具体为:数据中具有较高离散程度的聚类指标被赋予更大的权重,以加强其在聚类过程中的作用,相反,数据中离散程度较低的聚类指标则分配较小的权重,以削弱其影响,某个指标对应的变异系数计算如下:标对应的变异系数计算如下:标对应的变异系数计算如下:其中,表示聚类指标的变异系数,表示聚类指标对应的第个样本值;基于的值,对网约车需求数据集进行聚类,最小化到聚类中心的总加权偏差其中,表示第类的加权类中心,其计算方式如下:为了确定最佳聚类数,即K的值,采用轮廓系数来评估与每个K值相关的聚类表现,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网约车需求模式识别与短时需求预测方法,其特征在于,包括以下步骤:步骤S1:多源数据预处理及特征提取,筛选出城市客运枢纽的网约车需求模式识别与短时预测场景适用的多源数据,将多源数据作为初始数据,对所述初始数据进行预处理,将初始数据以特定的时间粒度汇聚,并对相关特征进行全面提取,得到基础数据集;步骤S2:网约车需求模式识别,基于改进的时间序列K

means聚类算法,对基础数据集进行聚类分析,得到多维特征指标下的典型网约车需求模式集合;步骤S3:网约车需求短时预测算法,针对步骤S2获得的每种典型网约车需求模式,基于每种典型网约车需求模式的数据样本,分别验证短时需求预测模型的有效性,并从中选择适合的短时需求预测算法;步骤S4:需求模式匹配与短时需求预测,基于实时获取的特征数据,匹配步骤S2中得到的网约车需求模式,根据适配的网约车需求模式,调用对应的短时预测算法,预测网约车的短时需求量。2.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中所述多源数据包括:网约车需求数据、城市客运枢纽到站客流数据、温度数据、降水数据、地铁运营状态数据、特殊事件数据、极端天气数据、百度指数数据。3.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中的预处理具体为:预处理中缺失值处理的实现为,以一天作为一个样本周期,针对连续缺失数据为至多两个的缺失数据,取值为和前一个最近的值;针对连续缺失数据为至少两个的缺失数据,采用线性插值方法对数据缺失值进行填补,线性插值方法填补缺失值的公式如下:其中,表示在时间段时记录的数据数值,表示在时间段时记录的数据数值;预处理中异常值处理的实现为,采用三倍标准差分解法,首先筛选与样本均值之差大于三倍标准差的异常样本数据,并将其值调整为样本均值与三倍标准差之和;然后筛选与样本均值之差小于负三倍标准差的异常值,调整为样本均值与三倍标准差之差,其中第种数据在样本周期第个时刻下的样本数据的异常值处理公式为:其中,表示第种数据在样本周期第时刻下的数据;表示异常值处理后的数据;表示一个样本周期中样本数据的均值;表示一个样本周期中样本数据的标准差;表示一个样本周期的全部样本数量;表示数据种类的数量;表示数据集天数;预处理中数据平滑处理的实现为,基于移动平均的网约车需求数据平滑,设有一个时
间序列,基于滑动窗口的思想,按数据点顺序逐点推移求出个数的平均数,得到一次移动平均数:其中,表示时刻下的网约车需求数据;表示平滑处理后的网约车需求数据;表示滑动窗口的大小;表示一个样本周期的全部样本数量。4.根据权利要求1所述的一种网约车需求模式识别与短时需求预测方法,其特征在于,步骤S1中对相关特征进行全面提取操作具体如下:多源数据融合,统一将多源数据以特定的时间粒度汇聚,并将多源数据整合为结构化数据集;特征提取,分别提取融合后数据集的日期特征、天气特征、城市客运枢纽到站客流特征、地铁运营特征、特殊事件特征、极端天气特征和百度指数特征;相关性分析,计算各...

【专利技术属性】
技术研发人员:李想陈楠冯紫嫣金坤于海涛钟园
申请(专利权)人:北京市智慧交通发展中心北京市机动车调控管理事务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1