一种基于路网聚类的热点区域挖掘方法技术

技术编号:18732987 阅读:43 留言:0更新日期:2018-08-22 03:13
本发明专利技术请求保护一种基于路网轨迹聚类的出行热点区域挖掘方法。在本方法中,将出租车轨迹映射到道路网络中,并且采用实际道路中采集到的兴趣点和轨迹结合的聚类方法。结合密度峰值聚类算法,提出了基于密度峰值优化初始中心的OPAM算法,即DP‑OPAM。算法采用数据点的局部密度和这些点到更高密度点的最短距离,采用决策图挑选出密度更高且距离最近的数据点所属的类别,作为初始聚类中心。根据初始聚类中心,采用增加反向学习的OPAM聚类算法,得到聚类结果。将新算法与原OPAM算法进行对比,新算法不仅能自动确定聚类中心,并且提高了准确率和聚类时间,实现用户出行热点区域分析。

A hot area mining method based on road network clustering

The invention requests to protect a travel hotspot area mining method based on road network trajectory clustering. In this method, the taxi trajectory is mapped to the road network, and the interest points and trajectories collected in the actual road are combined to cluster. Combining with the density peak clustering algorithm, an OPAM algorithm based on the initial center of density peak optimization, namely DP_OPAM, is proposed. The algorithm uses the local density of data points and the shortest distance from these points to higher density points, and uses decision graph to select the classes of higher density and nearest data points as the initial clustering center. According to the initial clustering center, the OPAM clustering algorithm with reverse learning is used to get the clustering results. Comparing the new algorithm with the original OPAM algorithm, the new algorithm can not only automatically determine the clustering center, but also improve the accuracy and clustering time, and realize the user trip hot area analysis.

【技术实现步骤摘要】
一种基于路网聚类的热点区域挖掘方法
本专利技术属于一种数据挖掘方法,尤其涉及一种基于道路网络的出租车轨迹聚类方法。
技术介绍
智能交通作为当今世界交通运输发展的热点,在支撑交通运输管理的同时,更加注重满足民众出行和公众交通出行的需求。近几年来,智能交通系统建设迅速发展,许多先进的技术广泛应用于智能交通系统。GPS设备的广泛应用使得轨迹的提取变得更加方便。这些GPS设备能够收集到大量的移动位置序列信息和车载状态信息,这些数据蕴含着丰富的交通信息和用户行为信息。通过对轨迹数据进行分析和挖掘,我们能够了解交通状况,合理规划行程,发现人群行为特征,协助改善交通状况等。出租车轨迹能够全方位覆盖城市路网交通,既能反映出实时的交通密集度和流通度,也能反映出人群的出行规律和区域特征。所以,通过对出租车轨迹的海量数据进行分析,发现隐藏在数据中的深层次信息,借助于数据挖掘技术,分析出数据整体特征描述和交通态势发展预测,为交通管理部门进行交通检测和道路控制提供支持等方面发挥着重大作用。聚类分析作为一种常用的数据挖掘技术,可以作为获得数据的分布状况的工具,便于观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。此外,还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。移动对象的轨迹聚类,通过发现相似的运动轨迹、提取运动特征等方式,发现移动对象的运动规律和行为模式。出租车的轨迹是由间断的序列点构成。轨迹传统的聚类分析在度量轨迹相似性时,大多考虑的时点与点之间的直线距离,而忽略了现实的距离可达情况。车辆轨迹的聚类分析研究,主要有两种方法:一种是将整条轨迹作为对象进行分类比较,另一种则是将轨迹按照一定的标准分为子轨迹段,对得到的子轨迹段进行分类。前者的优点在于方法简单,便于直观的评价轨迹之间的相似性,但同时,这种方法不能很好的分辨出轨迹的局部特征,聚类效果常常不够理想。后一种方法,可以改善前者在轨迹局部特征方面带来的问题,对于不同形状的轨迹,聚类效果更佳。但缺点是,轨迹分割的方法对聚类结果的影响较大,不同的分割方法可能造成结果的差异很大。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种可显著提高聚类效果,实现用户出行区域挖掘的基于路网聚类的热点区域挖掘方法。本专利技术的技术方案如下:一种基于路网聚类的热点区域挖掘方法,其包括以下步骤:步骤1:搜集出租车轨迹数据集,进行包括数据标准化、归一化的数据预处理,保留有效字段,删除冗余数据,得到预处理后的车辆上下客轨迹点;步骤2:确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点;步骤3:获取城市的路网信息,将轨迹点映射到道路网络中;步骤4:选取经过步骤1预处理后的车辆上下客轨迹点中的80%作为训练集,采用改进的基于密度峰值优化初始中心的OPAM算法聚类出代表上下车热点的区域,改进点主要在于:使用密度峰选取初始聚类中心,初始点的选取更准确、便捷,其余20%作为测试集,测试由上下客轨迹点中的80%作为训练集搭建好模型的聚类效果;步骤5:将步骤4的模型中输入步骤2采集到的具有路网信息的兴趣点,聚类得到具有路网特征的居民热点活动区域,将聚类结果和采集到的兴趣点对比,判断居民出行的热点区域。进一步的,所述步骤1具体为:首先搜集城市某月的出租车轨迹数据集,选取该城市数据量较为集中一周的轨迹数据,进行数据预处理,保留上下车轨迹点经纬度数据,上下车时间数据等有效字段,删除冗余数据。进一步的,所述步骤2确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点,具体为:首先在开源网站openstreetmap上输入目标城市的经纬度范围,下载整个城市的地图,导出的OSM地图数据中way代表用户的移动轨迹,node代表路径。选取node标签为residence、school、shop为代表兴趣点。进一步的,所述步骤3获取城市的路网信息,将轨迹点映射到道路网络中,具体为:采用TAREEG网络服务项目得到电子地图数据,提取该城市的路网信息,提取城市路网数据后,通过ST-Matching模型将上述所得的GPS移动轨迹投射到获取到的路网地图上,得到司机经过每一个路段e上(j-1+1)个连续时刻pi,…,pj的轨迹点。进一步的,所述步骤4具体为:首先选取处理好的车辆上下客轨迹点中的80%作为训练集,采用改进基于反向学习围绕中心点划分聚类算法(OPAM)聚类出代表上下车热点的区域,改进OPAM算法分为三个阶段:第一个阶段初始化,构造决策图,选取远离大部分样本的右上角区域的密度峰值点作为初始聚类中心,密度峰值点个数为类簇数k;第二阶段构造初始聚类中心,计算数据集中的各点与每个聚类中心的最小距离,将其余样本点分配到最近初始类簇中心,形成初始划分,计算聚类误差平方和;第三阶段反向学习并代入围绕中心点划分聚类算法(PAM),将典型PAM聚类算法得到的k个簇和经反向学习后得到k个反向簇进行排列组合得到k×k个类簇组合,寻找轮廓系数最大的类簇组合。进一步的,所述PAM算法的步骤如下:(1)从给定数据集D中任意选取k个元素,将选定的k个元素标记为初始代表对象或种子oj;(2)根据欧氏距离计算方式,计算数据集D中的任一非代表对象oi与k个代表对象之间的距离,并将oi分配到与其距离最近的代表对象所代表的簇;(3)任意选取一个非代表对象orandom;(4)计算总代价S:S=dist(p,orandom)-dist(p,oj)(5)如果总代价S<0,表明非代表对象orandom是较优解,元素orandom可以代替元素oj,形成新的k个代表对象的集合,继续返回到步骤(2),做新一轮的对象分配;(6)如果总代价S>0,表明代表对象oj是较优解,转到步骤(3),重新选取非代表对象进行总代价的比较,直至送代价S不再发生变化,即得到总代价最小的k个类簇。本专利技术的优点及有益效果如下:本专利技术将居民的出行热点分析结合道路网络,采用具体道路网络中的兴趣区域和原有聚类簇相结合聚类的方法,原有簇再次聚集到新簇中包含的兴趣区域特征表示出居民出行的热点区域,解决了欧式空间中时间、空间方面存在的不足。该方法采用基于密度峰值优化初始中心的方法构造决策树确定初始中心,减少了计算量并使聚类准确率更高。并且通过特殊兴趣点和轨迹结合聚类,解决数据稀疏性和计算量庞大的问题,实现用户的轨迹行为分析。附图说明图1是本专利技术提供优选实施例PAM聚类算法流程图;图2OPAM聚类算法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:如图2所示,该专利技术采用基于密度峰值优化初始中心的OPAM聚类算法和道路网路结合进行热点区域挖掘方法的具体步骤是:步骤1:搜集城市某月的出租车轨迹数据集,选取该城市数据量较为集中一周的的轨迹数据。进行数据预处理,保留上下车轨迹点经纬度数据,上下车时间数据等有效字段,删除冗余数据。步骤2:在开源网站openstreetmap上输入目标城市的经纬度范围,下载整个城市的地图。导出的OSM地图数据中way代表用户的移动轨迹,node代表路径。由于OSM源数据中way对象记录的是用户移动轨迹,所以wa本文档来自技高网
...

【技术保护点】
1.一种基于路网聚类的热点区域挖掘方法,其特征在于,包括以下步骤:步骤1:搜集出租车轨迹数据集,进行包括数据标准化、归一化的数据预处理,保留有效字段,删除冗余数据,得到预处理后的车辆上下客轨迹点;步骤2:确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点;步骤3:获取城市的路网信息,将轨迹点映射到道路网络中;步骤4:选取经过步骤1预处理后的车辆上下客轨迹点中的80%作为训练集,采用改进的基于密度峰值优化初始中心的OPAM算法聚类出代表上下车热点的区域,改进点主要在于:使用密度峰选取初始聚类中心;其余20%作为测试集,测试由上下客轨迹点中的80%作为训练集搭建好模型的聚类效果;步骤5:将步骤4的模型中输入步骤2采集到的具有路网信息的兴趣点,聚类得到具有路网特征的居民热点活动区域,将聚类结果和采集到的兴趣点对比,判断居民出行的热点区域。

【技术特征摘要】
1.一种基于路网聚类的热点区域挖掘方法,其特征在于,包括以下步骤:步骤1:搜集出租车轨迹数据集,进行包括数据标准化、归一化的数据预处理,保留有效字段,删除冗余数据,得到预处理后的车辆上下客轨迹点;步骤2:确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点;步骤3:获取城市的路网信息,将轨迹点映射到道路网络中;步骤4:选取经过步骤1预处理后的车辆上下客轨迹点中的80%作为训练集,采用改进的基于密度峰值优化初始中心的OPAM算法聚类出代表上下车热点的区域,改进点主要在于:使用密度峰选取初始聚类中心;其余20%作为测试集,测试由上下客轨迹点中的80%作为训练集搭建好模型的聚类效果;步骤5:将步骤4的模型中输入步骤2采集到的具有路网信息的兴趣点,聚类得到具有路网特征的居民热点活动区域,将聚类结果和采集到的兴趣点对比,判断居民出行的热点区域。2.根据权利要求1所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤1具体为:首先搜集城市某月的出租车轨迹数据集,选取该城市数据量较为集中一周的轨迹数据,进行数据预处理,保留上下车轨迹点经纬度数据,上下车时间数据等有效字段,删除冗余数据。3.根据权利要求1所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤2确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点,具体为:首先在开源网站openstreetmap上输入目标城市的经纬度范围,下载整个城市的地图,导出的OSM地图数据中way代表用户的移动轨迹,node代表路径。选取node标签为residence、school、shop为代表兴趣点。4.根据权利要求1所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤3获取城市的路网信息,将轨迹点映射到道路网络中,具体为:采用TAREEG网络服务项目得到电子地图数据,提取该城市的路网信息,提取城市路网...

【专利技术属性】
技术研发人员:仇国庆赵婉滢马俊张少昀
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1