Spark平台下基于GPS数据的出租车调配方法组成比例

技术编号:15692263 阅读:76 留言:0更新日期:2017-06-24 06:08
本发明专利技术请求保护一种Spark平台下基于GPS数据的出租车调配方法,包括:101从调度中心获取出租车历史GPS数据部署到Spark平台上,对数据做并行地预处理操作;102在Spark平台下对出租车历史GPS数据进行分析,提取特征建立回归模型;103在Spark平台下对出租车的实时GPS数据进行提取并预测其未来的路径、终点位置以及到达时间;104根据预测结果对出租车的调配进行优化。本发明专利技术主要是在Spark平台下解决出租车调配问题,通过对出租车历史GPS数据的分析,提取特征建立回归模型,从而预测出租车未来的GPS路径、终点位置以及到达时间,继而对出租车的调配进行优化。

Taxi deployment method based on GPS data under Spark platform

The invention relates to a taxi allocation method based on GPS data, including a Spark platform under the protection of: 101 from the dispatch center to get a taxi to the historical GPS data deployed on the Spark platform to do parallel preprocessing of the data; 102 in the Spark platform on the taxi history GPS data analysis, feature extraction and regression model; 103 in the Spark platform of real-time GPS data on the taxi to extract and predict its future path, end point location and time of arrival; 104 according to the prediction results of the optimized allocation of taxi. The invention is mainly to solve the taxi allocation problem under the Spark platform, through the analysis of the history of the taxi GPS data, feature extraction of regression model is established to predict the future path of taxi GPS, end point location and arrival time, and then to optimize the deployment of a taxi.

【技术实现步骤摘要】
Spark平台下基于GPS数据的出租车调配方法
本专利技术属于智能信息处理领域,具体涉及一种Spark平台下基于GPS数据的出租车调配方法。
技术介绍
随着城市人口的增长与交通问题的加剧,出行也变得越来越困难,出租车是重要的公共交通工具,出租车是每一个城市都有的重要组成部分。出租车市场庞大,以重庆为例,重庆主城区现有出租汽车万辆以上。在如此大的出租车市场规模下,市场竞争就表现的尤为严重。如何快速高效运输客人,提高出租车公司的经营获利最大化是每个出租车公司所希望的。由此可见,如此竞争激烈的出租车市场,出租车公司都迫切需要一套能够实现对出租车终点预测,以及对出租车终点到达时间预测的系统,为出租车的合理调度提供保障,从而使公司的经营获利最大化。该系统的提出,正是基于这样的背景。同时,该系统预测出租车的终点和到达时间,也能够帮助需要打车的朋友,能够在预测终点地方掐点等出租。这样就避免了乘客等不到出租车,出租车又找不到乘客,这样低效的问题,而且由于数据量庞大,本系统考虑预测结果的实时效率,因此建立在Spark平台下。本系统在出租车市场的需求是十分巨大的,相信在出租车市场能够发挥巨大的作用。该系统可以附加在调度中心的大数据平台下,通过合理调度出租车资源,避免交通堵塞,并为乘客提供了高效的乘车方案。该系统研究的难点在于把整个系统框架与Spark平台的巧妙结合,更加高效快捷的为乘客提供乘车方案。其次,根据实时路径怎样在短时间内找到与之相匹配的路径并且匹配效果较好也是该系统的一个难点所在。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种合理调度出租车资源,避免交通堵塞,并为乘客提供了高效的乘车方案方法。本专利技术的技术方案如下:一种Spark平台下基于GPS数据的出租车调配方法,其包括以下步骤:101、从调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据的每个数据模块都并行预处理操作,从地图中找到最为合理的路径进行GPS数据补全;102、在Spark平台下对出租车历史GPS数据进行分析,提取出租车轨迹特征并建立回归模型;103、在Spark平台下对出租车的实时GPS数据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间;104、根据预测结果对出租车的调配进行优化。进一步的,所述步骤S101调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据做并行地预处理操作,具体为:S1011、从调度中心获取历史出租车GPS数据,把历史GPS数据部署到Hadoop分布式文件系统HDFS中,spark是兼容HDFS分布式存储系统,生成m个数据块;S1012、并行的读入每个数据块,得到具有m个partition分区的弹性分布式数据集RDDa;S1013、对RDDa的每一个partition进行并行的预处理操作,所述的预处理操作是指:若该条GPS数据满足存在相邻两条坐标记录时间跨度超过k分钟,则删除该条数据;若k分钟内存在缺失的GPS坐标记录,则对该条数据进行补全,对该条数据进行地图匹配。进一步的,所述地图匹配使用GoogleMap提供的接口对该条数据进行地图匹配,同时考虑到该出租车的历史轨迹数据、当前时间、当天日期类型和路况在内的因素,从地图中找到最为合理的路径进行GPS数据补全,其中时间段k的设置依据为:考虑到该时间段长度对于地图匹配方法的影响,设置时间段k的取值为10分钟。进一步的,所述步骤S102提取出租车行驶特征具体为:S1021、对RDDa的每个partition进行并行的特征提取操作,并生成RDDb,所述的特征提取操作是指:提取出路线标识、出租车标识、时间戳、日期类别、轨迹开始和结束时间、路径坐标记录和用户行为信息特征;S1022、对RDDb使用persisit()方法缓存数据集,生成RDDd;S1023、对第二RDDb的每个partition进行并行的特征矩阵提取,生成RDDc,以RDDc构建学习模型。进一步的,所述步骤103在Spark平台下对出租车的实时GPS数据根据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间具体包括步骤:进行HDFS读入从调度中心获取的实时出租车GPS数据,生成n个数据块;并行的读入每个数据块,得到具有n个partition的RDDe;对RDDe的每个partition进行预处理操作,当该条实时GPS数据存在缺失数据,则对该条数据进行补全,使用GoogleMap提供的接口对该条数据进行地图匹配,同时考虑到该出租车的历史轨迹数据、当前时间、当天日期类型和路况方面的因素,从地图中找到最为合理的路径进行GPS数据补全;对RDDe的每个partition进行并行的特征提取操作,并生成RDDf;对RDDf使用persisit()方法缓存数据集,生成RDDh;对RDDf的每个partition进行并行的特征矩阵提取,生成RDDg,构建测试数据;通过RDDh.cartesion方法笛卡尔操作生成RDDi,其中每一个键值对为(key,value),key为某一条测试样本的ID,value为与该测试样本路径相匹配记录的ID;通过RDDi.groupByKey()方法合并匹配结果为RDDj,其中每个k-value值为(key,{value1,value2,...,valuel}),key为测试样本的id,{value1,value2,...,valuel}为与测试样本key相匹配记录的id集合,其中key为测试样本ID,{value1,value2,...,valuel}为与测试样本key路径相匹配的训练样本的ID集合;对RDDj进行map操作,形成对应与每个key的匹配矩阵,存储在RDDk中;使用RDDk中每个匹配的矩阵构建相应的决策树预测模型,并使用决策树预测模型预测测试数据下一个GPS位置P[x,y];若坐标P[x,y]为终点坐标,则停止预测,记终点坐标为Pend[x,y];反之,若P[x,y]不是终点坐标,则使用CC算法预测下一个GPS坐标路径,直至求出最后的终点坐标Pend[x,y];根据预测的终点坐标Pend[x,y],对该条实时数据key,在DTW匹配的路径集合{value1,value2,...,valuel}中找到更为合适的路径{p1,p2,...,ph},来预测该条实时GPS数据到达终点的时间t,通过预测模型得到出租车位置标记点,即为出租车以大概率行驶的轨迹点。进一步的,所述笛卡尔操作具体是指:对RDDh中的每条记录和RDDd中的每条记录进行DTW路径匹配,得出相匹配的键值对(key,value),在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在轨迹路径匹配领域表现为同一段路径上车子的GPS坐标;进一步的,所述步骤104根据预测结果对出租车的调配进行优化具体包括:根据预测出的结果对出租车的调配进行优化,根据预测出的结果大致推断出未来一段时间出租车的行驶轨迹、终点坐标以及到达终点的时间,根据这些信息可以对空车进行相应的调配,也可显示预测信息到相应终端,达到为乘客提供高效的乘车方案;所述对空车调配的优化是指:预测出下一段时间内哪些区域的车辆比较多,哪些区本文档来自技高网...
Spark平台下基于GPS数据的出租车调配方法

【技术保护点】
一种Spark平台下基于GPS数据的出租车调配方法,其特征在于,包括以下步骤:101、从调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据的每个数据模块都并行预处理操作,从地图中找到最为合理的路径进行GPS数据补全;102、在Spark平台下对出租车历史GPS数据进行分析,提取出租车轨迹特征并建立回归模型;103、在Spark平台下对出租车的实时GPS数据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间;104、根据预测结果对出租车的调配进行优化。

【技术特征摘要】
1.一种Spark平台下基于GPS数据的出租车调配方法,其特征在于,包括以下步骤:101、从调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据的每个数据模块都并行预处理操作,从地图中找到最为合理的路径进行GPS数据补全;102、在Spark平台下对出租车历史GPS数据进行分析,提取出租车轨迹特征并建立回归模型;103、在Spark平台下对出租车的实时GPS数据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间;104、根据预测结果对出租车的调配进行优化。2.根据权利要求1所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述步骤S101调度中心获取出租车历史GPS数据,并将该出租车历史GPS数据部署到Spark平台上,对历史GPS数据做并行地预处理操作,具体为:S1011、从调度中心获取历史出租车GPS数据,把历史GPS数据部署到Hadoop分布式文件系统HDFS中,spark是兼容HDFS分布式存储系统,生成m个数据块;S1012、并行的读入每个数据块,得到具有m个partition分区的弹性分布式数据集RDDa;S1013、对RDDa的每一个partition进行并行的预处理操作,所述的预处理操作是指:若该条GPS数据满足存在相邻两条坐标记录时间跨度超过k分钟,则删除该条数据;若k分钟内存在缺失的GPS坐标记录,则对该条数据进行补全,对该条数据进行地图匹配。3.根据权利要求2所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述地图匹配使用GoogleMap提供的接口对该条数据进行地图匹配,同时考虑到该出租车的历史轨迹数据、当前时间、当天日期类型和路况在内的因素,从地图中找到最为合理的路径进行GPS数据补全,其中时间段k的设置依据为:考虑到该时间段长度对于地图匹配方法的影响,设置时间段k的取值为10分钟。4.根据权利要求1-3之一所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述步骤S102提取出租车行驶特征具体为:S1021、对RDDa的每个partition进行并行的特征提取操作,并生成RDDb,所述的特征提取操作是指:提取出路线标识、出租车标识、时间戳、日期类别、轨迹开始和结束时间、路径坐标记录和用户行为信息特征;S1022、对RDDb使用persisit()方法缓存数据集,生成RDDd;S1023、对第二RDDb的每个partition进行并行的特征矩阵提取,生成RDDc,以RDDc构建学习模型。5.根据权利要求4所述的Spark平台下基于GPS数据的出租车调配方法,其特征在于,所述步骤103在Spark平台下对出租车的实时GPS数据根据进行提取并根据回归模型预测其未来的路径、终点位置以及到达时间具体包括步骤:进行HDFS读入从调度中心获取的实时出租车GPS数据,生成n个数据块;并行的读入每个数据块,得到具有n个partition的RDDe;对RDDe的每个partition进行预处理操作,当该条实时GPS数据存在缺失数据,则对该...

【专利技术属性】
技术研发人员:王进卜亚楠王科李颖孙开伟刘彬李智星陈乔松邓欣胡峰雷大江
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1