一种面向海量历史浮动车数据的分布式地图匹配方法组成比例

技术编号:10724918 阅读:169 留言:0更新日期:2014-12-04 01:51
一种面向海量历史浮动车数据的分布式地图匹配方法,包括以下步骤:步骤(1)将海量浮动车数据上传至Hadoop分布式文件系统;步骤(2)分布式数据清洗;步骤(3)将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引;步骤(4)通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算;步骤(5)Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。本发明专利技术计算速度较快、时间耗费量较小。

【技术实现步骤摘要】
【专利摘要】,包括以下步骤:步骤(1)将海量浮动车数据上传至Hadoop分布式文件系统;步骤(2)分布式数据清洗;步骤(3)将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引;步骤(4)通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算;步骤(5)Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。本专利技术计算速度较快、时间耗费量较小。【专利说明】—种面向海量历史浮动车数据的分布式地图匹配方法
本专利技术属于海量数据处理计算领域和智能交通领域,具体涉及一种分布式地图匹配方法。
技术介绍
浮动车数据是最重要的交通数据之一,其输出结果不仅能为相关部门提供道路实时交通状况信息,而且可为道路建设规划、拥堵缓解等各项工作提供定量数据分析基础。地图匹配技术是浮动车数据处理中最关键的一项内容之一,只有判断出车辆在哪条道路上行驶,才能将GPS数据转化为有效的道路交通状态信息。 浮动车数据库中往往存储着海量的历史数据。对这些海量历史浮动车数据的地图匹配是时空关联性挖掘、缺失值插补、浮动车轨迹研究、交通限制条件挖掘等各种数据处理与分析任务的先决条件。在传统的串行匹配技术下,普通计算海量浮动车数据进行地图匹配会耗费大量的计算时间。以10000辆出租车每20秒返回一条浮动车数据为例,I年的浮动车纪录约为114亿条,以I秒钟处理1000条数据为基准,总共的计算时间约为180天左右。计算时间之长令人难以忍受。因此设计分布式计算方法改变传统计算模式,达到分而治之的效果显得很有必要。
技术实现思路
为了克服已有现有技术中海量数据进行地图匹配时计算速度慢、时间耗费量大的不足,本专利技术提供了一种基于Hadoop的分布式地图匹配方法,实现原始数据快速清洗、计算速度较快、时间耗费量较小的面向海量历史浮动车数据的分布式地图匹配方法。 本专利技术解决其技术问题所采用的技术方案是: ,所述匹配方法包括以下步骤: 步骤(I):将海量浮动车数据上传至Hadoop分布式文件系统HDFS ; 步骤(2):分布式数据清洗,首先对原始数据进行切片,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上进行数据预处理,依据各个数据项的判别规则,实现分布式运算,当且仅当满足所有数据项判别规则时该数据行才会被保留,否则删除存在数据缺失或数据明显偏离正常值的数据行,最后将清洗后的数据重新存回Hadoop分布式文件系统HDFS上; 步骤(3):将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引; 步骤(4):通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算; 将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,形成中间键值对〈key, value); 地图匹配算法的Map函数的形参keyl设置为经过清洗后数据文件的行号索引,valuel设置为该行号索引所对应的数据行; 每条valuel的值读入内存并以“,”将数据行分割成多个数据项,从各数据项中提取出经度数据项,纬度数据项,行驶方向数据项进行匹配计算; 在地图匹配计算中引入匹配度函数(λ):匹配度是描述浮动车GPS点与一条道路的匹配度,使用(0,I)区间的浮点数进行量化,匹配度越接近1,代表该浮动车越有可能位于这条道路; 【权利要求】1.,其特征在于:所述匹配方法包括以下步骤: 步骤(1):将海量浮动车数据上传至Hadoop分布式文件系统HDFS ; 步骤(2):分布式数据清洗,首先对原始数据进行切片,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上进行数据预处理,依据各个数据项的判别规则,实现分布式运算,当且仅当满足所有数据项判别规则时该数据行才会被保留,否则删除存在数据缺失或数据明显偏离正常值的数据行,最后将清洗后的数据重新存回Hadoop分布式文件系统HDFS上; 步骤(3):将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引; 步骤(4):通过Hadoop的Map-Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map-Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算; 将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,形成中间键值对〈key, value〉; 地图匹配算法的Map函数的形参keyl设置为经过清洗后数据文件的行号索引,valuel设置为该行号索引所对应的数据行; 每条valuel的值读入内存并以“,”将数据行分割成多个数据项,从各数据项中提取出经度数据项,纬度数据项,行驶方向数据项进行匹配计算; 在地图匹配计算中引入匹配度函数(λ):匹配度是描述浮动车GPS点与一条道路的匹配度,使用(0,I)区间的浮点数进行量化,匹配度越接近1,代表该浮动车越有可能位于这条道路;其中λ为道路的匹配度; d为到道路投影距离的归一化值; Mt ^为车辆行驶方向与道路方向夹角的归一化值; μ !, μ 2为为匹配权重,且满足 Ii ι+ Ii 2 = I(1_4)其中Λ GPS—GPS平均误差;候选道路集合H: 候选道路集合H是在计算匹配度之前依据浮动车GPS点到各路段的投影距离d与距离阀值da之差所得出,当满足条件da-d> O时,就把该路段加入到候选路段集合H中; 然后依次对候选路段集合H中的路段做匹配度运算得出各个路段的匹配度,最后按照从大到小的顺序做排列运算,将匹配度最大的路段作为value2的值输出到Reduce函数;步骤(5) !Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。2.如权利要求1所述的,其特征在于:所述步骤(2)中,数据清洗Map函数设计如下: Map函数提供四个形参分别为keyl, valuel, key2, value2,其中(keyl, valuel)作为Map的输入参数,而(key2, value2)对应Map的输出参数,也是Reduce函数的输入参数(key2, value2); keyl设计为输入原始数据的行号索引,valuel为行号索引所对应的数据行,将valuel的数据行以“,”分割成各个数据项; 各数据项分别为:日期数据项,时间本文档来自技高网
...

【技术保护点】
一种面向海量历史浮动车数据的分布式地图匹配方法,其特征在于:所述匹配方法包括以下步骤: 步骤(1):将海量浮动车数据上传至Hadoop分布式文件系统HDFS; 步骤(2):分布式数据清洗,首先对原始数据进行切片,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map‑Reduce上进行数据预处理,依据各个数据项的判别规则,实现分布式运算,当且仅当满足所有数据项判别规则时该数据行才会被保留,否则删除存在数据缺失或数据明显偏离正常值的数据行,最后将清洗后的数据重新存回Hadoop分布式文件系统HDFS上; 步骤(3):将道路节点信息通过分布式缓存方法存储到各个Slave子节点上时,在任何Job在节点上执行之前,先对道路节点信息建立网格索引; 步骤(4):通过Hadoop的Map‑Reduce框架从分布式文件系统HDFS中读取清洗后的浮动车数据,同样对其进行切片处理,以128M为单元切片成多个数据块,然后将数据块分发到各个节点的Map‑Reduce上,同时读取分布式缓存中的道路节点信息进行地图匹配运算,实现分布式运算; 将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,形成中间键值对<key,value>; 地图匹配算法的Map函数的形参key1设置为经过清洗后数据文件的行号索引,value1设置为该行号索引所对应的数据行; 每条value1的值读入内存并以“,”将数据行分割成多个数据项,从各数据项中提取出经度数据项,纬度数据项,行驶方向数据项进行匹配计算; 在地图匹配计算中引入匹配度函数(λ):匹配度是描述浮动车GPS点与一条道路的匹配度,使用(0,1)区间的浮点数进行量化,匹配度越接近1,代表该浮 动车越有可能位于这条道路; 其中λ为道路的匹配度; 为到道路投影距离的归一化值;为车辆行驶方向与道路方向夹角的归一化值;μ1,μ2为为匹配权重,且满足 μ1+μ2=1       (1‑4) 其中ΔGPS‑‑GPS平均误差; 候选道路集合H: 候选道路集合H是在计算匹配度之前依据浮动车GPS点到各路段的投影距离d与距离阀值dα之差所得出,当满足条件dα‑d>0时,就把该路段加入到候选路段集合H中; 然后依次对候选路段集合H中的路段做匹配度运算得出各个路段的匹配度,最后按照从大到小的顺序做排列运算,将匹配度最大的路段作为value2的值输出到Reduce函数; 步骤(5):Reduce函数将匹配后的信息存储到Hadoop分布式文件系统中。...

【技术特征摘要】

【专利技术属性】
技术研发人员:薛益赵李建元钱涛倪升华李丹陈涛王浩
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1