当前位置: 首页 > 专利查询>福州大学专利>正文

一种逐级合并OD流向时空联合聚类方法技术

技术编号:22102416 阅读:40 留言:0更新日期:2019-09-14 03:30
本发明专利技术涉及一种逐级合并OD流向时空联合聚类方法,包括以下步骤:原始流向数据预处理,构建OD流向集合F;利用时空相似性度量统计出流向Fi周边与其相似的流向数numi;筛选出初始聚类类簇并以此构建出流向类簇集合Cset;设置OD流向类簇逐级合并等级.按照OD流向类簇合并等级的顺序逐级对OD流向类簇进行合并并更新流向类簇集合Cset,完成OD流向的聚类过程。本发明专利技术在流向相似度度量中充分考虑了OD流向长度、角度、时间等因素对OD流向聚类的影响,聚类类簇既包含空间特征也包含时间特征,通过调节相似性度量中的时间参数和空间参数可以得到不同时间尺度和空间尺度的聚类结果,具有较高的实用价值。

A Spatio-temporal Joint Clustering Method for Merging OD Flows Gradually

【技术实现步骤摘要】
一种逐级合并OD流向时空联合聚类方法
本专利技术涉及一种逐级合并OD流向时空联合聚类方法。
技术介绍
随着移动定位技术的快速发展与普及,大数据量的地理移动数据如人类日常活动轨迹数据、群体迁徙数据以及车辆轨迹数据等越来越容易被获取。OD流向数据是一种比较特殊的移动数据,它只保留了Origin(起始点)与Destination(终止点)的位置信息但忽略了实际的轨迹信息,通过对大数据量级别的车辆OD流向数据进行聚类可以识别出居民出行的流向和热点,精确把握城市居民的出行特征、城市不同区域之间群体流动的时空联系及其变化趋势,对交通规划设计和城市管理有重要的意义。目前国内外对OD流向的聚类方法主要有基于扫描统计的聚类方法、密度聚类方法和层次聚类方法。现有的聚类方法中存在以下问题,部分聚类算法存在着割裂OD点之间联系进行聚类;部分算法只能做到识别流向类簇,不能对全区域进行自动聚类;多数算法中没有顾及时间因素,或者只是划分时间段进行聚类,聚类结果不能精确地体现OD流向类簇的时间属性。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种逐级合并OD流向时空联合聚类方法,在不割裂O点和D点之间联系的基础上,解决了OD流向时空联合聚类的问题。为实现上述目的,本专利技术采用如下技术方案:一种逐级合并OD流向时空联合聚类方法,包括以下步骤:步骤S1:采集待测轨迹数据;步骤S2:从轨迹数据中提取出原始流向数据并预处理,构成OD流向集合F;步骤S3:根据OD流向的相似性度量统计F中每条OD流向Fi的相似流向数numi;步骤S4:根据步骤S2中计算的所有OD流向的相似流向数,若流向Fi的相似流向数满足条件numi>0,则将流向Fi看作原始OD流向类簇Ci,筛选出所有符合该条件的OD流向Fi,构建流向类簇集合Cset;步骤S5:预设类簇间高相似度highSim和相似度阈值threshold的等级,联合这两个等级设置OD流向类簇合并等级;步骤S6:遍历OD流向类簇合并等级,筛选出符合当前合并等级合并条件的待合并的流向类簇Cj和Ck,构建成待合并类簇组合,将所有的待合并类簇组合构成集合Merge,并按照待合并类簇组合之间的highSim进行排序,按照highSim从大到小的顺序合并Merge中待合并的类簇,若Merge中存在已经完成合并的类簇则跳过;步骤S7:循环步骤S6直到完成所有类簇合并等级情况下的合并,得到最终的流向类簇集合Cset,即待测轨迹数据OD流向的时空联合聚类结果。进一步的,所述步骤S2具体为:从轨迹数据中提取出每条轨迹数据的编号、O点和D点的经纬度坐标信息以及时间信息构成原始流向数据,对所有的流向数据进行预处理后构成OD流向集合F。进一步的,所述OD流向的相似性度量度量如下:sim(Fi,Fj)=1-func(ratioO)*func(ratioD)*func(ratioTime)/23ratioO=dist(Oi,Oj)/disLimitratioD=dist(Di,Dj)/disLimitratioTime=span(timei,timej)/timeLimit其中,dist(Oi,Oj)为流向Fi和Fj在O点处的距离,dist(Di,Dj)为流向Fi和Fj在D点处的距离,span(timei,timej)为流向Fi和Fj的上车时间差或下车时间差,timeLimit为人工输入的时间参数,单位为分钟或者小时,disLimit为空间相似性参数。进一步的,所述disLimit为空间相似性参数其计算方法为:其中len(Fi)为流向Fi的长度,k>=3;当sim(Fi,Fj)∈[0,0.875]时,流向Fi和Fj时空相似,且sim(Fi,Fj)越大,流向Fi与Fj的时空相似程度越高。进一步的,所述预设的类簇间高相似度highSim和相似度阈值threshold的定义以及合并等级设置如下:(1)类簇间高相似度highSim:两个流向类簇之间两两呈现高度相似的流向组合个数占所有组合的比值,计算方式如下:其中,m,n分别为流向类簇Cm,Cn中流向的个数;Fi∈Cm,Fj∈Cn;threshold∈[0,0.875]为相似度阈值;考虑到流向间的相似性度量公式的非对称性即sim(FiFj)≠sim(Fj,Fi),两个流向间的相似性数值取两种计算方式下的较大值;(2)相似度阈值threshold设置成a个等级t1、t2、…、ti、…、ta(其中0.875≥t1>t2>…>ti>…>ta>0),类簇间高相似度highSim设置成b个等级h1、h2、…、hj、…、hb(其中1≥h1>h2>…>hj>…>hb≥0),得到的逐级合并等级为t1,h1、t1,h2、…、ta,hb-1、ta,hb共a*b个合并等级。进一步的,所述步骤S6中当前合并等级的合并条件如下:当合并等级为ti,hj时,如果ti不是相似度阈值threshold的最小等级,则合并条件为:(1)highSim(Cm,Cn)≥hj,(threshold=ti);(2)highSim(Cm,Cn)≥1,(threshold=ti-1);如果ti是相似度阈值threshold的最小等级,则合并条件为:(1)highSim(Cm,Cn)≥hj,(threshold=ti);(2)流向类簇Cm与Cn中的流向满足两两相似。本专利技术与现有技术相比具有以下有益效果:1、本专利技术充分考虑了流向的长度、角度、时间,对OD流向进行聚类,得到的聚类类簇既包含时间属性也包含空间属性;2、本专利技术通过调整OD流向的相似性度量公式中的参数timeLimit会得到不同时间尺度的聚类结果,参数timeLimit设置地越大,聚类类簇的时间尺度越大,反之亦反;3、本专利技术通过调整OD流向的相似性度量公式中的参数k会得到不同空间尺度的聚类结果,参数k设置地越大,聚类类簇的空间尺度越小,反之亦反;4、本专利技术通过设置OD流向类簇合并的等级控制OD流向类簇合并的顺序以保证聚类结果的准确性,同时在每一个合并等级处有多个待合并的类簇组合,相较于经典的自底向上的层次聚类每次迭代只合并一个类簇组合大大提升了聚类效率,在OD流向数据量较大的情况下将极大减少运行时间。附图说明图1为本专利技术实施例的方法流程示意图。图2为本专利技术一实施例中的OD流向数据;图3为本专利技术实施例的OD流向类簇合并流程示意图;图4为本专利技术一实施例中的早高峰(7:00-10:00)和晚高峰(17:00-20:00)时的聚类结果。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。本实施例中,请参照图1,本专利技术提供一种逐级合并OD流向时空联合聚类方法,其特征在于,包括以下步骤:步骤S1:从2016年11月1目的成都市滴滴出租车的轨迹数据中提取出每条轨迹数据的编号、O点和D点的经纬度坐标信息以及时间信息构成原始流向数据,对所有的流向数据进行预处理后构成OD流向集合F;所述预处理如下:以研究区范围的区划图为底图,将原始流向数据与地图进行叠置,剔除掉O点或D点在研究区域外的OD流向。获得的OD流向数据如图2所示。流向Fi对象可按照如下数据结构进行设计:步骤S2:利用OD流向的相似性度量公式统计F中每条OD流向Fi的相本文档来自技高网...

【技术保护点】
1.一种逐级合并OD流向时空联合聚类方法,其特征在于,包括以下步骤:步骤S1:采集待测轨迹数据;步骤S2:从轨迹数据中提取出原始流向数据并预处理,构成OD流向集合F;步骤S3:根据OD流向的相似性度量统计F中每条OD流向Fi的相似流向数numi;步骤S4:根据步骤S2中计算的所有OD流向的相似流向数,若流向Fi的相似流向数满足条件numi>0,则将流向Fi看作原始OD流向类簇Ci,筛选出所有符合该条件的OD流向Fi,构建流向类簇集合Cset;步骤S5:预设类簇间高相似度highSim和相似度阈值threshold的等级,联合这两个等级设置OD流向类簇合并等级;步骤S6:遍历OD流向类簇合并等级,筛选出符合当前合并等级合并条件的待合并的流向类簇Cj和Ck,构建成待合并类簇组合,将所有的待合并类簇组合构成集合Merge,并按照待合并类簇组合之间的highSim进行排序,按照highSim从大到小的顺序合并Merge中待合并的类簇,若Merge中存在已经完成合并的类簇则跳过;步骤S7:循环步骤S6直到完成所有类簇合并等级情况下的合并,得到最终的流向类簇集合Cset,即待测轨迹数据OD流向的时空联合聚类结果。...

【技术特征摘要】
1.一种逐级合并OD流向时空联合聚类方法,其特征在于,包括以下步骤:步骤S1:采集待测轨迹数据;步骤S2:从轨迹数据中提取出原始流向数据并预处理,构成OD流向集合F;步骤S3:根据OD流向的相似性度量统计F中每条OD流向Fi的相似流向数numi;步骤S4:根据步骤S2中计算的所有OD流向的相似流向数,若流向Fi的相似流向数满足条件numi>0,则将流向Fi看作原始OD流向类簇Ci,筛选出所有符合该条件的OD流向Fi,构建流向类簇集合Cset;步骤S5:预设类簇间高相似度highSim和相似度阈值threshold的等级,联合这两个等级设置OD流向类簇合并等级;步骤S6:遍历OD流向类簇合并等级,筛选出符合当前合并等级合并条件的待合并的流向类簇Cj和Ck,构建成待合并类簇组合,将所有的待合并类簇组合构成集合Merge,并按照待合并类簇组合之间的highSim进行排序,按照highSim从大到小的顺序合并Merge中待合并的类簇,若Merge中存在已经完成合并的类簇则跳过;步骤S7:循环步骤S6直到完成所有类簇合并等级情况下的合并,得到最终的流向类簇集合Cset,即待测轨迹数据OD流向的时空联合聚类结果。2.根据权利要求1所述的一种逐级合并OD流向时空联合聚类方法,其特征在于,所述步骤S2具体为:从轨迹数据中提取出每条轨迹数据的编号、O点和D点的经纬度坐标信息以及时间信息构成原始流向数据,对所有的流向数据进行预处理后构成OD流向集合F。3.根据权利要求1所述的一种逐级合并OD流向时空联合聚类方法,其特征在于,所述OD流向的相似性度量度量如下:sim(Fi,Fj)=1-func(ratioO)*func(ratioD)*func(ratioTime)/23ratioO=dist(Oi,Oj)/disLimitratioD=dist(Di,Dj)/disLimitratioTime=span(timei,timej)/timeLimit其中,dist(Oi,Oj)为流向Fi和Fj在O点处的距离,dist(Di,Dj)为流向Fi和Fj在D点处的距离,span(timei,timej)为流向Fi和Fj的上车时间差或下车时间差,ti...

【专利技术属性】
技术研发人员:邬群勇项秋亮
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1