The invention discloses a taxi passenger hotspot identification method based on BDCH_DBSCAN. Firstly, a large number of taxi GPS data tracks are provided to eliminate interference data from them; the boarding data points and the boarding data points in the GPS data tracks are extracted; the extracted data points are clustered by multithreading and separated by DBSCAN algorithm. Core points, and get the neighbor node set of the core point, expand the cluster operation on the core point, extend the cluster refers to the neighbor points of the core point cluster division, and more than the smallest cluster number of neighbor core points and their fields into the cluster; according to the surface distance between the two points to find the neighbor nodes within the scanning radius, find out The maximum density point in each cluster is regarded as the cluster center, and the cluster center set is clustered again until the number and precision of the cluster meet the requirements. The invention can be adapted to large-scale data, is convenient for identifying cluster centers, has fast multi-thread clustering speed and high accuracy.
【技术实现步骤摘要】
基于BDCH-DBSCAN的出租车载客热点识别方法
本专利技术涉及交通大数据领域,尤其涉及一种基于BDCH-DBSCAN的出租车载客热点识别方法。
技术介绍
现今GPS轨迹数据作为交通大数据的一种,已被广泛应用。大量出租车上下客点形成的上下客热点对分析居民出行的时空分布、城市交通规划有着重要意义。现有技术中,基于出租车载客热点的提取主要包括两种方式:(1)通过划分网格单元格的方式:如基于路网约束的DBSCAN改进算法,基于网格的K-Means交通热区识别算法,利用数据场势值阈值法探测轨迹点的聚集模式,提取热点区域。(2)基于无监督的聚类方式:如结合当前环境轨迹特征的DBSCAN算法,基于MapReduce的从出租车轨迹提取热点区域的分布并行算法,GBADBSCAN上下客热点生成聚类算法。这些算法在聚类热点区域中,均取得了较好的检测效果,但是在大数据处理精确度上仍存在不足。DBSCAN是最常用的一种基于密度的聚类方法。传统的DBSCAN算法在聚类海量出租车行车轨迹数据点具有无法适应大规模数据、无法识别类簇中心、过程式单线程聚类速度慢等局限性。DBSCAN算法的基本原理是通过设定扫描半径Eps和最小包含点数MinPts来找出数据点集合中密度相连的最大集合。在半径Eps内含有超过MinPts数目的点叫做核心点;在半径Eps内含有小于MinPts数目,并且是在核心点的邻域内的点叫做边界点;既不是核心点也不是边界点的点叫做噪音点。但是,该方法只是简单的考虑了数据点之间的距离和每个核心点所需要的最小包含点数,在数据量大的情况下,经常会出现簇中轨迹点过多、覆盖面积较广、 ...
【技术保护点】
1.一种基于BDCH‑DBSCAN的出租车载客热点识别方法,其特征在于,包括以下步骤:(1)提供大量出租车GPS数据轨迹,从中剔除干扰数据,每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括载客状态、经度、纬度;(2)提取GPS数据轨迹中的上车数据点和下车数据点,若在该点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在该点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点;(3)对提取的上车数据点和下车数据点聚类进行分块循环聚类,将数据以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分,类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中;(4)找出簇心:根 ...
【技术特征摘要】
1.一种基于BDCH-DBSCAN的出租车载客热点识别方法,其特征在于,包括以下步骤:(1)提供大量出租车GPS数据轨迹,从中剔除干扰数据,每个GPS数据轨迹包括多个GPS数据点,每个GPS数据点包括载客状态、经度、纬度;(2)提取GPS数据轨迹中的上车数据点和下车数据点,若在该点之前的GPS数据点的载客状态为空载状态,在该点之后的GPS数据点的载客状态为载客状态,则判断该点为上车数据点;若在该点之前的GPS数据点的载客状态为载客状态,在该点之后的GPS数据点的载客状态为空载状态,则判断该点为下车数据点;(3)对提取的上车数据点和下车数据点聚类进行分块循环聚类,将数据以5000个为一组放入线程池中进行聚类,聚类设定扫描半径Eps和最小簇点数MinPts,采用DBSCAN算法分离出核心点,并获取核心点的邻居节点集,所述邻居节点集是以核心点为中心在半径Eps范围内的所有点的集合,邻居节点集中的点为邻居节点,对核心点进行扩展簇操作,扩展簇指对核心点的邻居节点进行类簇划分,类簇划分指将每个点分配到对应点集内,由此形成一个个簇,并将大于MinPts的邻居节点及其领域添加进簇中;(4)找出簇心:根据上车数据点和下车数据点的经度、纬度,确定两个数据点之间的曲面距离用来发现扫描半径Eps内的邻居节点;对每一个簇内点P进行密度计算,点P的邻居节点个数占簇内总点数的比例记为P点密度;最后找出该簇中密度最大即所含邻居节点数最多的点作为该簇的簇心;(5)将簇心集合重新写入轨迹点队列中再次聚类,并设定载客热点数量范围,直到最终簇心集合数量即载客热点数量达到设定的范围。2.根据权利要求1所述的基于BDCH-DB...
【专利技术属性】
技术研发人员:高尚兵,黄子赫,李木子,陈超,李胜东,周君,严云洋,陈晓兵,潘登峰,龚野,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。