实时交通流量并行预测方法、系统、终端及存储介质技术方案

技术编号:26690767 阅读:26 留言:0更新日期:2020-12-12 02:41
本发明专利技术公开了实时交通流量并行预测方法、系统、终端及存储介质,方法包括:基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理;对处理后的数据进行滤波得到训练数据;根据训练数据,构建基于Spark的分布式双向长短期记忆神经网络权重模型(SW‑BiLSTM模型);基于Spark并行分布式计算平台,执行分布式SW‑BiLSTM模型,输出预测结果;基于Spark并行处理框架,通过RDD算子进行数据预处理,经数据滤波平滑后获得训练数据,降低对预测模型精度的影响;以及构建分布式SW‑BiLSTM模型,在确保交通流量预测鲁棒性的同时,提高交通流量预测的准确性和实时性。

【技术实现步骤摘要】
实时交通流量并行预测方法、系统、终端及存储介质
本专利技术涉及移动轨迹大数据驱动的交通流量预测领域,尤其涉及实时交通流量并行预测方法、系统、终端及存储介质。
技术介绍
在智能交通系统(ITSs)和先进交通管理系统(ATMSs)中,实时交通流量预测旨在于实现交通流量的实时预测、优化控制和前瞻诱导,是解决交通预警控制的关键和基础。准确实时的交通流量预测可以帮助人们规划旅行时间和旅行路线,降低不必要的时间开销,缓解交通拥堵、减少交通事故和改善城市环境等。传统交通流量预测模型在集中式挖掘平台处理大样本数据时存在“内存消耗高、数据传输耗时、计算性能低”等问题,以及基于串行处理框架的现有集中式预测模型在交通流量预测时仍存局限,极易导致“内存消耗高、I/O开销大、计算性能低和可靠性差”等技术问题。同时,交通流量呈现高度的非线性,时变性和不确定性等特征,以及现有技术并未充分考虑历史-未来时刻的交通流量信息,以及没有充分捕捉交通流量内在的相关性信息,从而导致交通流量预测精度低的技术问题。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足,提供实时交通流量并行预测方法、系统、终端及存储介质,在确保交通流量预测鲁棒性的同时,提高交通流量预测的准确性和实时性,解决集中式挖掘平台下交通流量预测模型在处理大样本数据时存在的内存消耗高、计算耗时技术问题。本专利技术解决上述技术问题的技术方案如下:实时交通流量并行预测方法,包括以下步骤:基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理;对所述处理后的数据进行滤波得到训练数据;根据所述训练数据构建基于Spark的分布式双向长短期记忆神经网络权重模型(SW-BiLSTM模型);基于Spark并行分布式计算平台,执行所述分布式SW-BiLSTM模型,输出预测结果。本专利技术的有益效果是,在Hadoop分布式计算平台下,基于Spark并行处理框架,通过RDD算子进行数据预处理和进行滤波后获得训练数据,构建分布式SW-BiLSTM模型,基于Spark并行分布式计算平台,通过RDD实现所述分布式SW-BiLSTM模型,并输出预测结果,在确保交通流量预测鲁棒性的同时,提高交通流量预测的准确性和实时性,解决了集中式挖掘平台下交通流量预测模型在处理大样本数据时存在的内存消耗高、计算耗时技术问题。进一步,基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理包括:读取存储在HDFS文件系统中的车辆GPS轨迹数据,并创建多个RDD;调用Spark中的至少两种转换算子和至少两种执行算子对所述RDD进行数据处理和转换;启动所述RDD将处理转换后的车辆GPS数据保存至HDFS。采用上述进一步方案的有益效果是,基于Spark并行处理框架,对移动轨迹数据进行处理。利用RDD算子依次创建RDD以进行数据读取、转换RDD以进行数据计算处理、启动RDD以进行数据保存,减小获取的轨迹数据与原始数据之间的差异和降低对预测模型精度的影响,通过在Hadoop分布式计算平台下,基于Spark并行处理框架解决了集中式挖掘平台下交通流量预测模型在处理大样本数据时存在的内存消耗高、计算耗时技术问题。进一步,所述读取存储在HDFS文件系统中的车辆GPS轨迹数据,并创建多个RDD包括:将所述车辆GPS轨迹数据上传至所述HDFS文件系统,利用SparkContext对象中的textFile算子将存储在HDFS中的车辆GPS轨迹数据读入至Spark,并创建多个RDD。采用上述进一步方案的有益效果是,在Hadoop分布式计算平台下,基于Spark并行处理框架,对移动轨迹数据进行预处理。利用RDD算子进行数据读取,通过读取HDFS中的移动轨迹数据创建多个RDD,对数据进行处理以减少计算量,解决了集中式挖掘平台下传统交通流量预测模型在处理大样本数据时存在的内存消耗高、计算耗时技术问题。进一步,调用Spark中的至少两种转换算子和至少两种执行算子对所述RDD进行数据处理和转换包括:首先,使用flatMap算子将分布在各个节点上的车辆GPS轨迹转换为键值对<key1,value1>;其次,使用map算子设置key1=时间和车辆ID,value1=目标路段编号;接着使用filter算子对RDD中不属于选定目标路段的GPS轨迹数据进行过滤;最后使用sortByKey算子对RDD[<key1,value1>]中的key1进行排序,并使用distinct算子去除RDD中预设时间间隔内同一车辆的重复数据,获得目标路段在预设时间间隔内的车辆信息;首先,读取所提取的车辆信息,首先使用flatMap算子将分布在各个节点上的车辆信息转换为键值对<key2,value2>;其次,使用map算子设置key2=时间和区域编号,value2则增加计数1;最后使用reduceByKey算子根据key2值进行reduce操作,对预设时间间隔的车辆数量进行统计,得到选定目标路段在各时间间隔内的车辆数量;首先使用flatMap算子将分布在各个节点上的交通流量转换为键值对<key3,value3>;接着,使用map算子设置key3=时间间隔,value3=各目标路段的车辆总数;最后,使用sortByKey算子根据key3进行排序,并输出排序结果,将目标路段在预设时间间隔t内的车辆总数整合为一维数组Xt,由Xt构成矩阵X。采用上述进一步方案的有益效果是,通过flatMap算子、map算子、filter算子、sortByKey算子、reduceByKey算子最终得到目标路段在预设时间间隔t的交通流量,减少获得的轨迹数据与原始数据之间的差异和降低对预测模型精度的影响。进一步,所述根据所述训练数据构建SW-BiLSTM模型包括:通过正态分布对所述目标路段及其相邻路段的训练数据进行计算获得权重;根据所述权重基于原始交通流量时序数据获得新的交通流量时序数据;通过目标路段i在预设时间间隔t内的交通流量以及依次提取目标路段在相邻历史时间间隔内的交通流量(j=1,2,…,k)组成大小为k的窗口送入BiLSTM模型进行训练,得到SW-BiLSTM模型,k为正整数。采用上述进一步方案的有益效果是,通过正态分布对目标路段与及其相邻路段进行加权,以及考虑相邻路段交通流量与目标路段交通流量之间的变化幅度以降低预测误差,并将新的交通流量时序数据组成的时间序列所得到的数据集送入BiLSTM模型进行训练,以提高交通流量的鲁棒性、准确性和实时性。以解决现有交通流量预测仅能考虑历史交通信息而不能利用未来交通信息,以及没有充分捕捉交通流量内在的相关性信息,从而导致交通流量预测精度低的技术问题。进一步,所述通过正态分布对所述目标路段及其相邻路段的训练数据进行计算获得权重包括:设正态分布均值u为目标路段的交通流量,本文档来自技高网...

【技术保护点】
1.一种实时交通流量并行预测方法,其特征在于,包括以下步骤:/n基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理;/n对处理后的数据进行滤波得到训练数据;/n根据所述训练数据构建基于Spark的分布式双向长短期记忆神经网络权重模型SW-BiLSTM模型;/n基于Spark并行分布式计算平台,执行所述分布式SW-BiLSTM模型,输出预测结果。/n

【技术特征摘要】
1.一种实时交通流量并行预测方法,其特征在于,包括以下步骤:
基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理;
对处理后的数据进行滤波得到训练数据;
根据所述训练数据构建基于Spark的分布式双向长短期记忆神经网络权重模型SW-BiLSTM模型;
基于Spark并行分布式计算平台,执行所述分布式SW-BiLSTM模型,输出预测结果。


2.根据权利要求1所述的实时交通流量并行预测方法,其特征在于,所述基于Spark并行分布式计算平台,根据弹性分布式数据集RDD对车辆的移动轨迹数据进行数据预处理包括:
读取存储在HDFS文件系统中的车辆GPS轨迹数据,并创建多个RDD;
调用Spark中的至少两种转换算子和至少两种执行算子对所述RDD进行数据处理和转换;
启动所述RDD将处理转换后的车辆GPS轨迹数据保存至HDFS。


3.根据权利要求2所述的实时交通流量并行预测方法,其特征在于,所述读取存储在HDFS文件系统中的车辆GPS轨迹数据,并创建多个RDD包括:
将所述车辆GPS轨迹数据上传至所述HDFS文件系统,利用SparkContext对象中的textFile算子将存储在HDFS中的车辆GPS轨迹数据读入至Spark,并创建多个RDD。


4.根据权利要求2所述的实时交通流量并行预测方法,其特征在于,所述调用Spark中的至少两种转换算子和至少两种执行算子对所述RDD进行数据处理和转换包括:
首先,使用flatMap算子将分布在各个节点上的车辆GPS轨迹数据转换为键值对<key1,value1>;其次,使用map算子设置key1=时间和车辆ID,value1=目标路段编号;接着,使用filter算子对RDD中不属于选定目标路段的GPS轨迹数据进行过滤;最后,使用sortByKey算子对RDD[<key1,value1>]中的key1进行排序,并使用distinct算子去除RDD中预设时间间隔内同一车辆的重复数据,获得目标路段在预设时间间隔内的车辆信息;
首先,读取所提取的车辆信息,使用flatMap算子将分布在各个节点上的车辆信息转换为键值对<key2,value2>;其次,使用map算子设置key2=时间和区域编号,value2则增加计数1;最后,使用reduceByKey算子根据key2值进行reduce操作,对预设时间间隔的车辆数量进行统计,得到选定目标路段在各时间间隔内的车辆数量;
使用flatMap算子将分布在各个节点上的交通流量转换为键值对<key3,value3>;接着,使用map算子设置key3=时间间隔,value3=各目标路段的车辆总数;最后,使用sortByKey算子根据key3进行排序,并输出排序结果,...

【专利技术属性】
技术研发人员:夏大文杨楠李华青蒋顺英郑永玲白宇周号益严晓波冯夫健张乾魏嘉银卢友军王林
申请(专利权)人:贵州民族大学
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1