当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于混合特征挖掘的交通流量预测方法技术

技术编号:25188579 阅读:38 留言:0更新日期:2020-08-07 21:15
本发明专利技术公开了一种基于混合特征挖掘的交通流量预测方法,在该方法中,在交通流量数据的基础上引入混合特征数据,具体包括时间特征数据和交通态势特征数据,根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,而剔除相关性低、冗余重复的特征,将挖掘出的特征结合交通流量数据作为模型输入,构建交通流量预测模型,通过模型实现交通流量预测。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。

【技术实现步骤摘要】
一种基于混合特征挖掘的交通流量预测方法
本专利技术涉及智能交通
,尤其涉及一种基于混合特征挖掘的交通流量预测方法。
技术介绍
近年来,智慧交通飞速发展,使用交通预测模型对未来交通状态进行预测,通过提前预知交通状态,促使交通管理者尽早采取有效的交通管控手段,提升交通运输效率和出行体验。现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测,而缺乏其他的有效信息,使得流量预测的精准度达到一个瓶颈,难以继续提升。针对以上问题,本专利技术提出了一种基于混合特征挖掘的交通流量预测方法,在交通流量数据的基础上引入混合特征,具体包括时间特征,交通态势特征等。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,而去除相关性低、冗余重复的特征,将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。
技术实现思路
本专利技术目的在于针对现有技术的不足,提出一种基于混合特征挖掘的交通流量预测方法,解决现有的交通状态预测模型大多使用历史交通流量信息对未来交通状态进行预测,而缺乏其他的有效信息,使得流量预测的精准度达到一个瓶颈,难以继续提升的问题,在交通流量的基础上引入了混合特征,具体包括时间特征,交通态势特征。根据交通流量预测目标从混合特征中挖掘出相应的重要性高且特征之间差异大、相互独立的特征,将挖掘出的特征结合交通流量数据作为模型输入。在实现丰富特征引入的同时,构建了复杂度更低、解释性更强的预测模型,显著提升了模型的预测精准度。本专利技术的目的是通过以下技术方案来实现的:一种基于混合特征挖掘的交通流量预测方法,该方法包括以下步骤:步骤(1):构建多维初始化原始数据;初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+t1,T+t2,…,T+tK的K个时间点的交通流量,则多维数据具体获取方式如下:1.1)交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t1,T+t2,…,T+tK的K个时间点的交通流量数据;历史数据的采样时间间隔均匀,时间间隔为,采样交通流量数据量为;1.2)所述混合特征数据,其中时间数据与要预测的未来交通流量的时间点T+ti相关,为对应的具体时间戳,1≤i≤K,且为整数;交通态势数据反映道路状况,为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长;步骤(2):解析步骤(1)中得到的混合特征数据,并将解析后的特征数据向量化;具体步骤如下:2.1)对混合特征数据中的时间数据进行分解;将时间数据分解为离散值数据特征;2.2)将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征,所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度;2.3)将分解后的数据特征向量化,对连续值数据特征进行标准化,均值为0,方差为1,离散值数据特征独热化one-hot编码,此处特征向量化能够提升特征挖掘效率;步骤(3):计算分解并向量化后的特征数据的重要性,将重要性小于设定阈值的特征去除,具体步骤如下:3.1)采用简单纯随机抽样方法,将所有数据作为总样本,从M个总样本中不重复抽样出N个样本,使得抽样样本随机包含分解并向量化后的特征数据;N值范围为:3.2)使用抽样出的N个样本数据构建最大深度为D的提升树treebooster,深度D根据样本数据量大小和各个特征数据的取值特点进行调整;3.3)分别计算每一个特征数据在提升树中的重要性;使用重要性指标total_gain,即根据某特征数据在每次分裂节点带来的总增益,计算该特征数据的重要性得分;3.4)将数据特征按步骤3.3)中计算得到的重要性得分排序,去除重要性得分小于阈值的特征数据,设置方法如下:设重要性得分平均数为μ,重要性得分方差为,xj为第j个特征数据的重要性得分,0≤j≤总特征数据数J,则有:则设置为,其中系数表示的含义是,当系数取值为时,重要性得分取值落在以下区间的概率为:式中,为重要性得分最大值;即有的重要性得分大于等于的数据特征被保留,的重要性得分小于的数据特征被剔除;系数及相应的应根据实际应用中重要性取值分布情况进行调整;步骤(4):对保留下来的特征数据,计算两两特征之间的最大互信息系数,根据最大互信息系数取值分布情况,按实际需求选取阈值;将最大互信息系数大于阈值的两个特征,删除重要性得分小的那个特征,即去除重复冗余特征;步骤(5):重新构建数据;将步骤(4)最终保留下来的混合特征数据和交通流量数据组合成数据集;步骤(6):构建基于GRU的交通流量预测模型,将步骤(5)构建的数据集中的特征数据和历史交通流量数据作为模型的输入,模型的输出为相应的要预测的交通流量数据;具体步骤如下:6.1)模型的输入维度即为特征数据和历史流量数据的综合维度H;6.2)模型的输出维度即为要预测的K个时间点的流量数据的维度K;6.3)构建基于GRU时序预测模型,模型层数为N_layers,隐藏层个数为N_hidden_units,输入维度为H,输出维度为K;6.4)设计模型损失函数为L2损失函数,优化器为Adam优化器;6.5)训练预测模型使模型损失函数最小,反复迭代直至模型完全收敛,同时根据测试集测试性能优化模型超参数;6.6)使用训练好的模型对实际道路未来K个时间点的交通流量进行预测。进一步地,步骤2.1)中,将时间数据分解为离散值数据特征,具体包括年、月、日、小时、分钟、秒钟、年度第几周、年度第几天、本月第几周、本月第几天、星期几、第几季度和一天中的时间段,所述一天中的时间段包括凌晨、早晨、上午、中午、下午、傍晚、晚上和深夜。进一步地,步骤(4)具体过程如下:4.1)对步骤3.4)中保留下来的特征数据,将任意两两特征进行组合,组合数量为C;4.2)将组合中的特征之间的关系离散在二维空间中,并使用散点图来表示;4.3)将二维空间在X,Y方向分别划分为一定的区间数,穷举所有的划分尺度;对划分尺度进行约束,即对在X,Y方向上的划分格子个数(bx,by),对任意的bx,by满足:其中bmax表示在X,Y方向上的划分格子个数的乘积的最大值,N为样本数量,bmax设置为样本数量的0.6次方;计算出所有划分尺度数为P;4.4)对所有的划分尺度数P遍历每个划分尺度即划分格子个数(bx,by)的所有网格化划分方案,分别计算各个划分方案的互信息值,求出互信息值的最大值为最大化信息值MI,并对最大互信息值进行归一化,得到MInorm;...

【技术保护点】
1.一种基于混合特征挖掘的交通流量预测方法,其特征在于,该方法包括以下步骤:/n步骤(1):构建多维初始化原始数据;/n初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+

【技术特征摘要】
1.一种基于混合特征挖掘的交通流量预测方法,其特征在于,该方法包括以下步骤:
步骤(1):构建多维初始化原始数据;
初始化原始数据由多维数据组成,包括交通流量数据和混合特征数据,所述交通流量数据为车流量或车速数据;所述混合特征数据包括时间数据和交通态势数据;多维数据中,假设某个当前时间点是T,预测T+t1,T+t2,…,T+tK的K个时间点的交通流量,则多维数据具体获取方式如下:
1.1)交通流量数据为T时刻之前的Y个小时的历史数据和相应的预测T+t1,T+t2,…,T
+tK的K个时间点的交通流量数据;历史数据的采样时间间隔均匀,时间间隔为,采样交通
流量数据量为;
1.2)所述混合特征数据,其中时间数据与要预测的未来交通流量的时间点T+ti相关,为对应的具体时间戳,1≤i≤K,且为整数;交通态势数据反映道路状况,为采样历史Y小时时间内是否发生交通事故、事故等级、拥堵程度以及拥堵持续时长;
步骤(2):解析步骤(1)中得到的混合特征数据,并将解析后的特征数据向量化;具体步骤如下:
2.1)对混合特征数据中的时间数据进行分解;将时间数据分解为离散值数据特征;
2.2)将交通态势特征数据分解为离散值数据特征和拥挤持续时长的连续值数据特征,所述离散值数据特征包括是否发生交通事故、事故等级和拥堵程度;
2.3)将分解后的数据特征向量化,对连续值数据特征进行标准化,均值为0,方差为1,离散值数据特征独热化one-hot编码,此处特征向量化能够提升特征挖掘效率;
步骤(3):计算分解并向量化后的特征数据的重要性,将重要性小于设定阈值的特
征去除,具体步骤如下:
3.1)采用简单纯随机抽样方法,将所有数据作为总样本,从M个总样本中不重复抽样出N个样本,使得抽样样本随机包含分解并向量化后的特征数据;N值范围为:



3.2)使用抽样出的N个样本数据构建最大深度为D的提升树treebooster,深度D根据样本数据量大小和各个特征数据的取值特点进行调整;
3.3)分别计算每一个特征数据在提升树中的重要性;使用重要性指标total_gain,即根据某特征数据在每次分裂节点带来的总增益,计算该特征数据的重要性得分;
3.4)将数据特征按步骤3.3)中计算得到的重要性得分排序,去除重要性得分小于阈值的特征数据,设置方法如下:
设重要性得分平均数为μ,重要性得分方差为,xj为第j个特征数据的重要性得分,0≤j≤总特征数据数J,则有:






则设置为,



其中系数表示的含义是,当系数取值为时,重要性得分取值落在以下区间的概率为:



式中,为重要性得分最大值;即有的重要性得分大于等于的数据特
征被保留,的重要性得分小于的数据特征被剔除;系数及相应的应根据实际应
用中重要性取值分布情况进行调整;
步骤(4):对保留下来的特征数据,计算两两特征之间的最大互信息系数,根据最大互信息系数取值分布情况,按实际需求选取阈值;将最大互信息系数大于阈值的两个特征,删除重要性得分小的那个特征,即去除重复冗余特征;
步骤(5):重新构建数据;将步骤(4)最终保留下来的混合特征数据和交通流量数据组合成数据集;
步骤(6):构建基于GRU的交通流量预测模型,将步骤(5)构建的数据集中的特征数据和历史交通流量数据作为模型的输入,模型的输出为相应的要预测的交通流量数据;具体步骤如下:
6.1)模型的输入维度即为特征数据和历史流量数据的综合维度H;
6.2)模型的输出维度即为要预测的K个时间点的流量数据的维度K;
6.3)构建基于GR...

【专利技术属性】
技术研发人员:黄倩季玮宋晓峰李道勋季欣凯吴戡
申请(专利权)人:之江实验室
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1