基于特征站点的公交IC卡数据站点匹配方法组成比例

技术编号:6133444 阅读:294 留言:0更新日期:2012-04-11 18:40
一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,包括:确定单车单日班次数步骤;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;特征站点选取步骤;包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。

【技术实现步骤摘要】

本专利技术涉及一种将公交IC卡交易数据与公交站点的匹配方法,属于公交信息数据处理领域。
技术介绍
公交IC卡收费系统为公交出行分析提供了低成本的海量数据,但由于系统设计目的是为方便乘客付费与票款清算,未考虑交通领域的应用,故IC卡数据缺少了一些必要的出行信息,在数据处理分析中,首先需要通过技术手段获取缺失信息,才能开展进一步的数据挖掘工作。由于单次刷卡的公交IC卡数据中缺少乘客上车站点信息,需要找出乘客刷卡记录与站点的对应关系。目前比较常见的匹配方法是利用聚类方法对乘客刷卡数据进行聚类,以站点间运行时间估计值作为相似性判断阈值,与聚类子集间的时间差值进行对比,将满足条件的聚类子集匹配到对应站点。事实上,由于公交站点间车辆运行时间的不确定,单纯依靠站点间运行时间估计值作为站点匹配的判断依据是不够准确的,当道路交通条件发生变化情况下,匹配结果误差较大。根据公交客流统计结果可知,在某个固定时段内(如早高峰)公交站点客流量具有较强的规律性,这种规律为通过寻找具有客流特征的站点来辅助站点匹配的新技术提供了可能。
技术实现思路
本专利技术目的在于,通过提供一种基于站点客流特征的公交IC卡站点匹配方法,提高单次刷卡线路的公交IC卡数据站点匹配精度,准确反映公交乘客出行时站点客流量信息。为基于公交IC卡的数据处理分析提供高质量的数据,获取更真实的公交IC卡数据挖掘结果,为公交规划者与管理者提供决策依据。本专利技术是采用以下技术手段实现的一种基于特征站点的公交IC卡数据站点匹配方法,包括基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配;所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤步骤1. 1 确定单车单日班次数;即通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数。对于单车单日IC卡数据而言,连续两个班次之间有较大的时间间隔,通常在5 10分钟以上(环行线路即一端无重点场站线路除外),故单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔。计算单车单日所有相邻交易记录的交易时间差值,、代表单车IC卡数据中每条交易记录的交易时间,(Kti, ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算 d(ti ti+1) = |ti-ti+1以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟。统计单车单日班次数,方法如下w = w+1, if d(ti; ti+1) > α步骤1. 2 确定初始聚类个数;单车班次确认后,对单个班次内的交易记录进行聚类分析。由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数。以k代表聚类初始值,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下k = k+1, if CKti, ti+1) > β步骤1. 3 计算初始聚类子集中心及误差平方和准则函数;设交易记录数据集为T,Hii为聚类中心,即每个类中交易时间的平均值,P是数据集中的点,即交易记录中的交易时间。计算初始聚类中心如下权利要求1. 一种基于特征站点的公交IC卡数据站点匹配方法,包括基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,其特征在于包括如下步骤 所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤 步骤1. 1 确定单车单日班次数;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;对于单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔的,作为判断单车单日IC卡数据班次的依据。计算单车单日所有相邻交易记录的交易时间差值,、代表单车IC卡数据中每条交易记录的交易时间,(Kti, ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算 (Kti, ti+1) = I ti-ti+1以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为 5分钟,平峰为10分钟;统计单车单日班次数,方法如下 w = w+1, if (Kti, ti+1) > α 步骤1. 2 确定初始聚类个数;单车班次确认后,对单个班次内的交易记录进行聚类分析,由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数,以k代表聚类初始值, β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下 k = k+1, if d(ti ti+1) > β步骤1. 3 计算初始聚类子集中心及误差平方和准则函数;设交易记录数据集为T,Hli为聚类中心,即每个类中交易时间的平均值,ρ是数据集中的点,即交易记录中的交易时间,计算初始聚类中心如下2.根据权利要求1所述的一种基于特征站点的公交IC卡数据站点匹配方法,其特征在于所述基于特征站点的站点匹配,首先从公交线路中选取出包括客流峰值站点及换乘站点在内的特征站点,与对应的聚类子集进行匹配,再根据站点间运行时间与聚类子集时间间距的大小关系完成其他站点与聚类子集的匹配。3.根据权利要求1所述的一种基于特征站点的公交IC卡数据站点匹配方法,其特征在于所述基于特征站点的站点匹配,其换乘站点的确认方法为首先找到可能与换乘站点匹配的聚类子集,并搜索聚类子集中每个IC卡号的全天交易记录;对同一 IC卡号,若前一个交易记录发生的线路与目标线路有换乘站点,则计算前一个交易记录与属于目标线路的交易记录的交易时间差值,若差值小于判断阈值则认为存在换乘行为,属于目标线路的交易记录所在的聚类子集与换乘站点ID匹配。全文摘要一种基于特征站点的公交IC卡数据站点匹配方法,包括基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,包括确定单车单日班次数步骤;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;特征站点选取步骤;包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。文档编号G06F17/30GK102156732SQ20111008968公开日2011年8月17日 申请日期2011年4月11日 优先权日2011年4月11日专利技术者刘帅, 陈绍辉, 陈艳艳 申请人:北京工业大学本文档来自技高网...

【技术保护点】
1.一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,其特征在于包括如下步骤:所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤:步骤1.1:确定单车单日班次数;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;对于单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔的,作为判断单车单日IC卡数据班次的依据。计算单车单日所有相邻交易记录的交易时间差值,ti代表单车IC卡数据中每条交易记录的交易时间,d(ti,ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算:d(ti,ti+1)=|ti-ti+1|以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟;统计单车单日班次数,方法如下:w=w+1,if d(ti,ti+1)>α步骤1.2:确定初始聚类个数;单车班次确认后,对单个班次内的交易记录进行聚类分析,由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数,以k代表聚类初始值,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下:k=k+1,if d(ti,ti+1)>β步骤1.3:计算初始聚类子集中心及误差平方和准则函数;设交易记录数据集为T,mi为聚类中心,即每个类中交易时间的平均值,p是数据集中的点,即交易记录中的交易时间,计算初始聚类中心如下:误差平方和准则函数E计算如下:步骤1.4:聚类循环计算增加聚类个数k,并重复步骤1.3,直到准则函数E收敛;对单个班次,最终聚类子集个数应小于公交线路单程站点数;以n代表线路单程站点数,定义当d(ki,ki+1)<30s,or k=n-1时,聚类停止;所述的基于特征站点的站点匹配,包括如下步骤:步骤2.1:特征站点选取;特征站点包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;特征站点的选取可根据城市居民出行调查数据或公交运营调查数据中统计得到,或基于公交IC卡数据处理分析,获得站点客流或换乘行为识别等数据,来确认特征站点;步骤2.3客流峰值站点匹配;按照班次途径站点先后顺序为站点赋予ID,并确认客流峰值站点的ID;选取交易记录数最多的聚类子集,按照时间先后顺序与客流峰值站点ID进行匹配;步骤2.4:换乘站点匹配按照班次途径站点先后顺序为站点赋予ID,根据目标线路与其他线路接驳及客流换乘情况选择换乘站点,并确定ID;根据聚类子集时间排序与站点ID排序的对应关系,找到可能与换乘站点匹配的聚类子集;若换乘站点ID为x,则定义可能的聚类子集为kx-1,kx,kx+1;对可能与换乘站点匹配的聚类子集,搜索其中每个IC卡号的全天交易记录,找到由其他线路换乘到目标线路的IC卡号;设乘客在目标线路站点的交易时间为td,前一个交易记录的交易时间为to,若to所属线路与目标线路有换乘站点,则该IC卡号乘客可能为换乘乘客;设变量Transfer为1时表示存在换乘行为,为0时不存在换乘行为, 为换乘行为判断阈值,当换乘线路为双次刷卡公交线路或地铁线路时,取值一般小于20分钟,当换乘 线路为单次刷卡线路时,取值一般小于1小时;判断是否为换乘行为方法如下:一旦Transfer=1出现时,则视换乘行为被确定,其他潜在值将不再被计算,将td所在的聚类子集与换乘站点ID匹配;步骤2.5:非特征站点匹配以特征站点为基准点,根据相邻站点平均运行时间与聚类子集时间距离的大小关系匹配其余站点;聚类子集时间距离为d(ki,ki+1)=mi+1-mi,设Dq-1,q为站点q-1与q的站间距离, 为站点间车辆运行平均速度,t为的交通时间段, 为站点平均运行时间,则站点间运行时间计算如下:若聚类子集ki与特征站点q-1匹配,则非特征站点匹配方法如下:子集k+1与站点q匹配子集k+1与站点q+1匹配子集k+1与站点q+2匹配...。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈艳艳陈绍辉刘帅
申请(专利权)人:北京工业大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1