一种基于Spark平台的短时交通流量预测方法技术

技术编号：14014600 阅读：698 留言：0更新日期：2016-11-17 19:09

本发明专利技术在一种基于Spark平台的短时交通流量预测方法，将并行化的KNN算法应用于短时交通流预测领域。相比基于单机计算的传统KNN算法而言，该方法解决了在单台物理机上进行数据计算时，系统存储容量小、计算速度慢的问题，也解决了KNN算法近邻查找过程中近邻匹配效率过低的问题。该方法在保证预测精度的前提下，提高了算法的计算效率，有效的改善了KNN预测算法的实用性，并且系统具有良好的扩展性和加速比。本发明专利技术对于其他需要对大规模数据进行处理的应用也具有参考意。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于云计算和数据挖掘领域，具体涉及基于Spark平台的短时交通流量预测方法。
技术介绍
短时交通流量预测是指对特定路段未来几分钟的车流量做出预测。短时交通流量预测是解决城市交通拥堵的重要途径，而随着城市汽车数量的增加，交通流量的数据量急剧增加。单机进行基于位置数据的短时交通流量预测面临着数据量大存储困难、计算时间长等问题。而云计算平台在海量数据存储和大规模并行实时处理方面具有强大的技术优势，可以在保证预测精度的前提下，有效的提高短时交通流量预测的计算效率。在众多分类算法中，KNN算法是一种最简单常用的算法，KNN算法预测精度很高，但由于在相似度计算过程中，每一个待分类的样本都要计算它到所有已知样本的距离，以确定它的K个最近邻点。随着数据量的增大，会造成相似度计算量过大、从而导致计算效率较低的问题，这样严重限制了KNN算法在数据挖掘工作中的应用。而在Spark平台上将KNN算法进行分布式实现，有效的解决了KNN算法近邻查找过程中搜索历史数据库效率过低的问题，提高了算法的计算效率，有效的改善了KNN预测算法的实用性。Spark是一个通用的大规模数据快速处理引擎，它是由UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架。Spark是基于内存的迭代计算框架，它使用了RDD的理念，可以在内存中存储数据，只在需要时才持久化到磁盘中。这样做可以在很大程度上减少了数据处理过程中磁盘的读写，大幅度的降低了任务执行所需时间，因此Spark能更好的适用于数据挖掘和机器学习等需要反复迭代的算法。Spark还支持SQL查...
一种基于Spark平台的短时交通流量预测方法

【技术保护点】
一种基于Spark平台的短时交通流量预测方法，其特征在于包括如下步骤：(1)数据预处理：处理源交通流量数据，剔除与交通流量预测无关的数据字段；(2)基于时空关系的特征向量：利用与待测路段在时间和空间相关联路段的交通流量共同生成KNN算法的交通流特征向量；(3) 实时流处理：利用Spark 流计算解决了交通流量预测的实时性问题；(4)并行化KNN算法实现：对传统KNN算法进行并行化实现，使得KNN算法能够在Spark分布式集群上运行；(5)数据分析：利用并行化KNN算法，对基于时空关系生成的交通流特征向量进行处理，得到待测路段下一时刻交通流量的预测结果。

【技术特征摘要】
1.一种基于Spark平台的短时交通流量预测方法，其特征在于包括如下步骤：(1)数据预处理：处理源交通流量数据，剔除与交通流量预测无关的数据字段；(2)基于时空关系的特征向量：利用与待测路段在时间和空间相关联路段的交通流量共同生成KNN算法的交通流特征向量；(3) 实时流处理：利用Spark 流计算解决了交通流量预测的实时性问题；(4)并行化KNN算法实现：对传统KNN算法进行并行化实现，使得KNN算法能够在Spark分布式集群上运行；(5)数据分析：利用并行化KNN算法，对基于时空关系生成的交通流特征向量进行处理，得到待测路段下一时刻交通流量的预测结果。2.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法，其特征在于：所述的数据预处理是对由道路传感器收集到的源交通流数据进行处理，得到与预测路段相关的字段数据以及与待测路段在时间和空间相关联路段的交通流数据，包括如下步骤：(1)将传感器收集到的交通流量数据存储到Hadoop的HDFS文件系统中；(2)利用Spark中的textFile()函数将存储到HDFS文件系统中的交通流量数据读入到Spark中，并生成一个Spark中特有的数据类型MappedRDD；(3)利用Spark中的map()函数，读取MappedRDD中每一行交通流量数据，并利用Spark中的split()函数对每一行数据按照分隔符进行分割，最后将需要的交通流字段数据进行提取。3.根据权利要求1所述的一种基于Spark平台的短时交通流量预测方法，其特征在于：所述的基于时空关系的特征向量是对交通流数据进行时空特性分析，确定最佳的时间和空间维度，以此形成最佳的交通流输入向量；预...

【专利技术属性】
技术研发人员：胡斌杰，王腾辉，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人