一种时空规律的地铁乘客聚类和边缘检测方法技术

技术编号:9861457 阅读:101 留言:0更新日期:2014-04-02 19:57
本发明专利技术属于信息数据处理技术领域,提供了一种时空规律的地铁乘客聚类和边缘检测方法,包括如下步骤:S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。本发明专利技术基于时空数据挖掘对地铁乘客分类,按照时空规律乘客的规律时段数量将时空规律乘客做聚类,并对每一类时空规律乘客作分析和边缘检测,可以有效了解乘客的生活特征。

【技术实现步骤摘要】
一种时空规律的地铁乘客聚类和边缘检测方法
本专利技术属于信息数据处理
,具体涉及一种时空规律的地铁乘客聚类和边缘检测方法。
技术介绍
相比传统的公共交通付费方式,如现金支付、年卡、月卡,智能卡具有方便性、便捷性、成本低等优点;相比传统的公共交通数据采集、决策服务能力、生活服务能力等方面,智能卡具有数据完整性、一致性、数据采集成本低、分析结果精准性、可靠等优点。综上,智能卡的使用已经带来了非常明显的方便和好处,智能卡在现代公共交通方面已成为不可或缺的工具,得到了快速普及和广泛的应用。在大数据时代,以交通智能卡消费数据为核心,挖掘市民生活特征及规律已成为智慧城市等领域研究的重要方向之一,目前对智能卡消费数据的分析主要集中在三个方面:1、基础数据分析;2、乘客行为分析、乘客需求预测、个人出行模式分析;3、结合一、二两方面做交通长期规划,策略调整,提高交通质量、生活服务能力和数据决策服务能力。目前,基于乘客的时空规律对乘客进行分类的相关研究比较少,现有的相关研究主要集中于结合智能卡的类型对乘客做分析,并比较不同类型的乘客特征的差异性。而针对乘客的时空特征对乘客分类的相关研究比较少。
技术实现思路
本专利技术要解决的技术问题在于提供一种时空规律的地铁乘客聚类和边缘检测方法,具有高稳定性、可靠性、安全性。本专利技术的技术方案包括一种时空规律的地铁乘客聚类和边缘检测方法,包括如下步骤:S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。进一步地,所述源数据包括智能交通卡消费信息表和地铁线路表;所述智能交通卡消费信息表包括智能交通卡的卡号、地铁站刷卡终端的终端号、用户的刷卡时间、进站或出站标识;所述地铁线路表包括线路名称、途经站点、线路类型,所述线路类型包括上行和下行;所述时空规律的地铁乘客为出行时间和出行地点均比较规律的乘客。进一步地,所述步骤S1具体包括:S11、对包含乘客所有乘车记录的源数据进行数据预处理;S12、以智能交通卡的卡号作为唯一标识,从经过数据预处理后的数据中读取每张卡的乘车记录;S13、对乘客进行分类,将时空规律乘客的tag值设为一预定值;S14、对于所述步骤S13中分类后的时空规律乘客,将全天分成n个时间段,计算时空规律乘客乘车各时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段;S15、对于所述T中的所有时段的乘车天数,通过比较相邻各时段的乘车天数的值,获取满足时间密集概率的各时段峰值;S16、对所述步骤S15中获取的每一个峰值对应的时间段,判断在所述时间段内乘客出行地点是否规律,若是,则将此峰值的详细信息添加到规律时空详情列表sptmList,所述详细信息包括时间密集概率、空间密集概率、密集的时间段、密集的进出站对;S17、计算所述规律时空详情列表sptmList中元素的数量并将所述数量赋值给size,size做为这名乘客的中心点;S18、判断所有乘客是否都被处理并且找到所有的峰值,若是则结束,否则返回执行步骤S11。进一步地,所述步骤S2具体包括:S21、以智能交通卡的卡号作为唯一标识,从规律时空详情列表sptmList中读取一张卡的所有时空规律详细信息P;S22、判断是否有任何簇建立,若没有,则建立新簇C,并将对象P加入簇C,将对象P标识为已处理,簇C的中心值为对象P的峰值数量size;若已经有簇建立,则执行步骤S23;S23、计算对象P与每个簇中心的距离;若存在某个簇Ci的中心与对象P的峰值数量size相等,则将所述对象P归类到簇Ci;否则,建立新簇Cj,并将对象P加入簇Cj;S24、重复执行步骤S21-S23,直到所有对象都被处理并归入了某个簇,并按照簇中智能交通卡的卡号的数量对所有簇排序。进一步地,所述步骤S3具体包括:S31、基于簇的大小,对所有簇分类,将簇划分为边缘簇abnCluster和非边缘簇nCluster,其中所述边缘簇abnCluster为簇的数量与平均簇的数量的比值小于设定阈值的簇,非边缘簇nCluster为簇的数量与平均簇的数量的比值大于或等于设定阈值的簇;S32、依次读取非边缘簇nCluster中的每一个簇Ci,建立int[i][n]数组Si,所述n为将全天分成n个时间段;S33、依次取出簇Ci中一位乘客的规律时空详情列表sptmList,按高峰时段的大小对规律时空详情列表sptmList排序和编号,并将对应的数组Si元素的n值加1;S34、重复执行步骤S33,直到簇Ci中所有的乘客都处理完;S35、分析所述数组Si的结果分布情况;S36、若非边缘簇nCluster中的所有簇都分析完毕,执行步骤S37;否则重复执行步骤S32-S36;S37、依次读取边缘簇abnCluster中的每一个簇Ci,并按照乘客的时空特征按照步骤S32-S34进行分析;S8:若边缘簇abnCluster中的所有簇都分析完毕,则结束;否则重复执行步骤S37。进一步地,所述步骤S11具体包括:S111、过滤缺失字段的交易记录;S112、将智能交通卡过滤处理后的所有交易记录按时间排序,并计算智能交通卡中的每一乘车记录;S113、计算每一智能交通卡的总刷卡天数;S114、将步骤S112、S113中的数据结果汇总;S115、对每一智能交通卡执行步骤S111-S114,直到全部智能交通卡均被处理;S116、对输出结果进行统计,计算乘车天数概率分布。进一步地,所述步骤S13通过如下方式对乘客进行分类:S131、提取每一智能交通卡的交易记录;S132、判断刷卡天数是否小于一预设阈值,是则输出类别1:极少出行乘客,执行步骤S136;否则执行步骤S133;S133、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,执行步骤S134,否则执行步骤S135;S134、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后执行步骤S136;S135、利用基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;S136、判断全部智能交通卡是否均被处理,是则结束,否则返回执行步骤S131;其中所述类别4:时间和空间规律性乘客为所述时空规律乘客。进一步地,所述基于时间的用户出行规律算法Tm-ODCluster包括:A1、以天为周期、m分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);A2、计算所述每一时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段,n为将全天分成n个时间段;A3、寻找刷卡最密集的时间段Sm,并计算时间密集概率Pt=Sm/Dnum,其中,Dnum为乘客刷卡总天数;A4、若Pt大于时间密度阈值Thrt,则为时间规律性乘客;若Pt小于时间密度阈值Thrt,则为时间不规律性乘客。进一步地,所述基于空间的用本文档来自技高网...
一种时空规律的地铁乘客聚类和边缘检测方法

【技术保护点】
一种时空规律的地铁乘客聚类和边缘检测方法,其特征在于,包括如下步骤:S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。

【技术特征摘要】
1.一种时空规律的地铁乘客聚类和边缘检测方法,其特征在于,包括如下步骤:S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;所述源数据包括智能交通卡消费信息表和地铁线路表;所述智能交通卡消费信息表包括智能交通卡的卡号、地铁站刷卡终端的终端号、用户的刷卡时间、进站或出站标识;所述地铁线路表包括线路名称、途经站点、线路类型,所述线路类型包括上行和下行;所述时空规律的地铁乘客为出行时间和出行地点均比较规律的乘客;所述步骤S1具体包括:S11、对包含乘客所有乘车记录的源数据进行数据预处理;S12、以智能交通卡的卡号作为唯一标识,从经过数据预处理后的数据中读取每张卡的乘车记录;S13、对乘客进行分类,将时空规律乘客的tag值设为一预定值;S14、对于所述步骤S13中分类后的时空规律乘客,将全天分成n个时间段,计算时空规律乘客乘车各时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段;S15、对于时间段T中的所有时段的乘车天数,通过比较相邻各时段的乘车天数的值,获取满足时间密集概率的各时段峰值;S16、对所述步骤S15中获取的每一个峰值对应的时间段,判断在所述时间段内乘客出行地点是否规律,若是,则将此峰值的详细信息添加到规律时空详情列表sptmList,所述详细信息包括时间密集概率、空间密集概率、密集的时间段、密集的进出站对;S17、计算所述规律时空详情列表sptmList中元素的数量并将所述数量赋值给size,size做为这名乘客的中心点;S18、判断所有乘客是否都被处理并且找到所有的峰值,若是则结束,否则返回执行步骤S11;S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:S21、以智能交通卡的卡号作为唯一标识,从规律时空详情列表sptmList中读取一张卡的所有时空规律详细信息P;S22、判断是否有任何簇建立,若没有,则建立新簇C,并将对象P加入簇C,将对象P标识为已处理,簇C的中心值为对象P的峰值数量size;若已经有簇建立,则执行步骤S23;S23、计算对象P与每个簇中心的距离;若存在某个簇Ci的中心与对象P的峰值数量size相等,则将所述对象P归类到簇Ci;否则,建立新簇Cj,并将对象P加入簇Cj;S24、重复执行步骤S21-S23,直到所有对象都被处理并归入了某个簇,并按照簇中智能交通卡的卡号的数量对所有簇排序。3.根据权利要求2所述的方法,其特征在于,所述步骤S3具体包括:S31、基于簇的大小,对所有簇分类,将簇划分为边缘簇abnCluster和非边缘簇nCluster,其中所述边缘簇abnCluster为簇的数量与平均簇的数量的比值小于设定阈值的簇,非边缘簇nCluster为簇的数量与平均簇的数量的比值大于或等于设定阈值的簇;S32、依次读取非边缘簇nCluster中的每一个簇Ci,建立int[i][n]数组Si,所述n为将全天分成n个时间段;S33、依次取出簇Ci中一位乘客的规律时空详情列表sptmList,按高峰时段的大小对规律时空详情列表sptmList排序和编号,并将对应的数组Si元素的n值加1;S34、重复执行步骤S33,直到簇Ci中所有的乘客都处理完;S35、分析所述数组Si的结果分布情况;S36、若非边缘簇nCluster中的所有簇都分析完毕,执行步骤S37;否则重复执行步骤S32-S36;S37、依次读取边缘簇abnCluster中的每一个簇Ci,并按照乘客的时空特征按照步骤S32-S34进行分析;S8:若边缘簇abnCluster中的所有...

【专利技术属性】
技术研发人员:赵娟娟张帆白雪须成忠邹瑜斌田臣熊文
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1