当前位置: 首页 > 专利查询>淮阴工学院专利>正文

基于BDCH-DBSCAN的出租车载客热点识别方法技术

技术编号:18711412 阅读:87 留言:0更新日期:2018-08-21 22:45
本发明专利技术公开了一种基于BDCH‑DBSCAN的出租车载客热点识别方法,首先提供大量出租车GPS数据轨迹,从中剔除干扰数据;提取GPS数据轨迹中的上车数据点和下车数据点;对提取的数据点进行多线程分块聚类,并采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,对核心点进行扩展簇操作,扩展簇指对核心点的邻居点进行类簇划分,并将大于最小簇点数的邻居核心点及其领域添加进簇中;根据两点之间的曲面距离找出扫描半径内的邻居节点,找出每个簇中的最大密度点,作为簇心,并对簇心集合再次循环聚类直至集合数量、精度满足要求。本发明专利技术可以适应大规模数据、便于识别类簇中心、多线程聚类速度快、精确度高。

Identification method of taxi passenger hot spot based on BDCH-DBSCAN

The invention discloses a taxi passenger hotspot identification method based on BDCH_DBSCAN. Firstly, a large number of taxi GPS data tracks are provided to eliminate interference data from them; the boarding data points and the boarding data points in the GPS data tracks are extracted; the extracted data points are clustered by multithreading and separated by DBSCAN algorithm. Core points, and get the neighbor node set of the core point, expand the cluster operation on the core point, extend the cluster refers to the neighbor points of the core point cluster division, and more than the smallest cluster number of neighbor core points and their fields into the cluster; according to the surface distance between the two points to find the neighbor nodes within the scanning radius, find out The maximum density point in each cluster is regarded as the cluster center, and the cluster center set is clustered again until the number and precision of the cluster meet the requirements. The invention can be adapted to large-scale data, is convenient for identifying cluster centers, has fast multi-thread clustering speed and high accuracy.

【技术实现步骤摘要】
基于BDCH-DBSCAN的出租车载客热点识别方法
本专利技术涉及交通大数据领域,尤其涉及一种基于BDCH-DBSCAN的出租车载客热点识别方法。
技术介绍
现今GPS轨迹数据作为交通大数据的一种,已被广泛应用。大量出租车上下客点形成的上下客热点对分析居民出行的时空分布、城市交通规划有着重要意义。现有技术中,基于出租车载客热点的提取主要包括两种方式:(1)通过划分网格单元格的方式:如基于路网约束的DBSCAN改进算法,基于网格的K-Means交通热区识别算法,利用数据场势值阈值法探测轨迹点的聚集模式,提取热点区域。(2)基于无监督的聚类方式:如结合当前环境轨迹特征的DBSCAN算法,基于MapReduce的从出租车轨迹提取热点区域的分布并行算法,GBADBSCAN上下客热点生成聚类算法。这些算法在聚类热点区域中,均取得了较好的检测效果,但是在大数据处理精确度上仍存在不足。DBSCAN是最常用的一种基于密度的聚类方法。传统的DBSCAN算法在聚类海量出租车行车轨迹数据点具有无法适应大规模数据、无法识别类簇中心、过程式单线程聚类速度慢等局限性。DBSCAN算法的基本原理是通过设定扫描半径Eps和最小包含点数MinPts来找出数据点集合中密度相连的最大集合。在半径Eps内含有超过MinPts数目的点叫做核心点;在半径Eps内含有小于MinPts数目,并且是在核心点的邻域内的点叫做边界点;既不是核心点也不是边界点的点叫做噪音点。但是,该方法只是简单的考虑了数据点之间的距离和每个核心点所需要的最小包含点数,在数据量大的情况下,经常会出现簇中轨迹点过多、覆盖面积较广、可视化效果差、热点无法被精确找到等问题。
技术实现思路
专利技术目的:为了解决现有技术存在的问题,既适用于大规模数据又能高效准确的找出类簇簇心,本专利技术提供一种基于BDCH-DBSCAN的出租车载客热点识别方法。技术方案:一种基于BDCH-DBSCAN的出租车载客热点识别方法,包括以下步骤:(1)提供大量出租车GPS数据轨迹,从中剔除干扰数据,每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括载客状态、经度、纬度;(2)提取GPS数据轨迹中的上车数据点和下车数据点,若在该点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在该点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点;(3)对提取的上车数据点和下车数据点聚类进行分块循环聚类,将数据以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分,类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中;(4)找出簇心:根据上车数据点和下车数据点的经度、纬度,确定两个数据点之间的曲面距离用来发现扫描半径Eps内的邻居节点;对每一个簇内点P进行密度计算,点P的邻居节点个数占簇内总点数的比例记为P点密度;最后找出该簇中密度最大即所含邻居节点数最多的点作为该簇的簇心;(5)将簇心集合重新写入轨迹点队列中再次聚类,并设定载客热点数量范围,直到最终簇心集合数量即载客热点数量达到设定的范围。优选的,步骤(1)中剔除干扰数据的方法为:设定出租车最大行驶速度为Vmax;在GPS数据轨迹中提取一段时间内的GPS数据点,记为GPS轨迹序列T{p1,p2,...,pk},选择保留满足下式的GPS轨迹序列:式中:distance(pi+1,pi)表示pi+1到pi的欧式距离;pi,t表示采集pi轨迹点的时间,(pi+1,t-pi,t)表示pi+1点到pi点之间的时间差;若pi不满足上式,则pi为跳变点,剔除该GPS数据轨迹。优选的,步骤(4)找出簇心的方法为:在获取类簇操作时,记录每一簇内节点的邻居点集中点的个数;对每一簇内的点进行密度计算,所述密度为该点的邻居点个数占簇内总点数的比例;找出簇中密度最大即所含邻居节点数最多的点,作为该簇的簇心。优选的,步骤(4)中确定两个数据点之间的曲面距离的方法为:设两个数据点之间的曲面距离为L,则:a=lat1-lat2b=lon1-lon2式中,lat1表示第一个数据点的纬度,lat2表示第二个数据点的纬度,lat1表示第一个轨迹点的经度,lat2表示第二个轨迹点的经度,R表示地球半径。优选的,步骤(1)中的GPS数据点还包括簇序号、簇热点中心标识参数;所述簇序号为类簇编号,是每一类簇唯一的标识,用于区分各个类簇;所述簇热点中心标识参数为标记计算出的类簇中心点。有益效果:本专利技术提供一种基于BDCH-DBSCAN的出租车载客热点识别方法,相比较现有技术,根据出租车GPS数据的分布特征,将簇心引入传统的DBSCAN算法中,可以适应大规模数据、便于识别类簇中心、多线程聚类速度快;将簇心与多线程并行分块聚类加入至DBSCAN算法中,克服了现有技术的方法在出租车载客热点区域提取精确度的不足的问题。本方法有效的为用户找出每个簇中的最大密度点,并以该点作为簇心。用簇心代替簇类的显示方法既可以使输出结果更为简洁,也可以使热点显示更为精确。附图说明图1为上车数据点、下车数据点的载客状态变化图;图2为簇心识别流程图;图3为分块聚类流程图;图4为是使用DBSCAN算法、C-DBSCAN和BDCH-DBSCAN算法聚类后的时间复杂度对比图;图5(a)采用单线程聚类的资源利用率示意图;图5(b)采用多线程聚类的资源利用率示意图;图6(a)为使用DBSCAN算法聚类后的郊区热点示意图;图6(b)为使用C-DBSCAN算法聚类后的郊区热点示意图;图6(c)为使用BDCH-DBSCAN算法聚类后的郊区热点示意图;图7为实验中使用BDCH-DBSCAN算法的出租车载客热点聚类效果示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明。基于BDCH-DBSCAN的出租车载客热点识别方法,包括以下步骤:(1)首先提供大量出租车GPS数据轨迹,本实施例采用的GPS数据轨迹为淮安市2016~2017年出租车GPS轨迹数据,数据大小约为200G,采样时间间隔在30~60秒。每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括出租车的车牌号、当前采样点的采样时间、载客状态、经度、纬度、簇序号(0:未分类,-1:噪声点,正数:序号)、簇热点中心标识参数(0:非簇中心,1:簇中心);所述簇序号为类簇编号,是每一类簇唯一的标识,用于区分各个类簇;所述簇热点中心标识参数为标记计算出的类簇中心点;从这些大量的初始数据中剔除干扰数据,具体方法为:设定出租车最大行驶速度为Vmax;在GPS数据轨迹中提取一段时间内的GPS数据点,记为GPS轨迹序列T{p1,p2,..,pk},选择保留满足下式的GPS轨迹序列:式中:distance(pi+1,pi)表示pi+1到pi的欧式距离;若pi不满足上式,则pi为跳变点,本文档来自技高网
...

【技术保护点】
1.一种基于BDCH‑DBSCAN的出租车载客热点识别方法,其特征在于,包括以下步骤:(1)提供大量出租车GPS数据轨迹,从中剔除干扰数据,每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括载客状态、经度、纬度;(2)提取GPS数据轨迹中的上车数据点和下车数据点,若在该点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在该点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点;(3)对提取的上车数据点和下车数据点聚类进行分块循环聚类,将数据以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分,类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中;(4)找出簇心:根据上车数据点和下车数据点的经度、纬度,确定两个数据点之间的曲面距离用来发现扫描半径Eps内的邻居节点;对每一个簇内点P进行密度计算,点P的邻居节点个数占簇内总点数的比例记为P点密度;最后找出该簇中密度最大即所含邻居节点数最多的点作为该簇的簇心;(5)将簇心集合重新写入轨迹点队列中再次聚类,并设定载客热点数量范围,直到最终簇心集合数量即载客热点数量达到设定的范围。...

【技术特征摘要】
1.一种基于BDCH-DBSCAN的出租车载客热点识别方法,其特征在于,包括以下步骤:(1)提供大量出租车GPS数据轨迹,从中剔除干扰数据,每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括载客状态、经度、纬度;(2)提取GPS数据轨迹中的上车数据点和下车数据点,若在该点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在该点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点;(3)对提取的上车数据点和下车数据点聚类进行分块循环聚类,将数据以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分,类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中;(4)找出簇心:根据上车数据点和下车数据点的经度、纬度,确定两个数据点之间的曲面距离用来发现扫描半径Eps内的邻居节点;对每一个簇内点P进行密度计算,点P的邻居节点个数占簇内总点数的比例记为P点密度;最后找出该簇中密度最大即所含邻居节点数最多的点作为该簇的簇心;(5)将簇心集合重新写入轨迹点队列中再次聚类,并设定载客热点数量范围,直到最终簇心集合数量即载客热点数量达到设定的范围。2.根据权利要求1所述的基于BDCH-DB...

【专利技术属性】
技术研发人员:高尚兵黄子赫李木子陈超李胜东周君严云洋陈晓兵潘登峰龚野
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1