当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于地铁刷卡数据的通学识别方法技术

技术编号:17516755 阅读:65 留言:0更新日期:2018-03-21 01:19
本发明专利技术公开了一种基于地铁刷卡数据的通学识别方法,包括以下步骤:1)基于地铁刷卡信息,采集包括IC卡卡号、车站和刷卡时间的数据并进行预处理;2)为每个卡号找出使用频率最高的车站及与其对应的使用频率最高的车站,作为家车站和学校车站的候选车站;3)根据该城市的中小学作息时间安排,将每个卡号的两个候选车站之间的出行记录按照进站时间分类,并按照一定的时间规则确定家车站和学校车站;4)找出并删除非通学出行记录和难以判定的卡号及其记录。本发明专利技术从时间和空间角度出发,对大量地铁刷卡数据的整合处理,首次提出了基于地铁刷卡数据识别通学人群的方法,解决了使用大数据研究通学行为的基础问题,弥补了传统调查方法的不足。

A general recognition method based on the data of the subway card

The invention discloses a general recognition method based on the data of the subway card, which comprises the following steps: 1) the subway card based on information collection, including IC card number and card station time and data pretreatment; 2) to find the highest frequency of use and the station corresponding to the highest frequency of use for each station number, as the home station and the station station Candidate School; 3) according to the school schedule of the city arrangement, between two candidate number of each station stop time travel records according to the classification, and according to certain rules to determine the home school between station and station; 4) card and records to find out and remove non commuting travel records and difficult to judge. The present invention starting from the perspective of time and space, the integration of processing large amounts of data for the first time the subway card, subway card data recognition method is proposed based on the general population, solve the problem of the use of large data research school behavior, overcomes the shortcoming of the traditional methods of investigation.

【技术实现步骤摘要】
一种基于地铁刷卡数据的通学识别方法
本专利技术涉及交通规划中出行行为数据采集与分析方法,具体涉及一种基于地铁刷卡数据的通学识别方法。
技术介绍
近年来,学生出行方式的选择引起了越来越多的学者的关注。在中国,小学和初中阶段的学生应该根据就近入学的政策入学。但是,由于教育资源分配不均衡,越来越多的家长会通过择校为他们的孩子获取高质量的教育资源,这通常会导致一个长距离的通学距离。地铁作为城市主要的中长距离出行模式会被他们选择。然而,这些会使用地铁的学生日常仍然会被父母开车接送去学校。为了引导这些学生更多的使用地铁,有必要更好地了解他们日常的通学模式。通学行为即与通勤行为对应的从家中往返学校的过程,目前均采用传统问卷调查方法获得通学出行的信息来进行分析,传统的问卷调查方法调查过程耗费大量人力和时间,调查样本量少且样本覆盖范围小、不全面,导致分析结果有偏差或者只能对范围有限的局部地区进行分析。而且,通学行为是一个长期的过程,难以通过短期的传统调查来获取完整的数据。幸运的是为收费设计的地铁智能卡系统可以提供详细的刷卡记录,包括可用于许多目的的卡类型、刷卡日期和地铁站点,这些数据可以更好地代替许多传统调查方式获取的数据。但是,尽管基于智能卡数据的通勤识别研究方法日渐成熟,目前对学校通学行为识别的研究却极少。常规通勤识别方法关注的是时间和空间模式,根据一周内的乘车频次、固定的上下车站、两次乘车的时间间隔等来识别人群的通勤出行。而在通学行为识别方法中,由于家长开车接送学生上下学的现象十分普遍,因此长期使用地铁的中小学生人数并不是非常多,如果仅仅依靠出行频率将会错误地排除掉大量的真正的通学人群;同时,由于学校的午休制度,在同一地点停留的时间也不是很好的鉴定方法。因此必须采用严格合理的时间和空间约束条件来准确判断一次工作日内的出行行为是否为通学行为。
技术实现思路
专利技术目的:基于以上不足,本专利技术提供了一种基于地铁刷卡数据识别使用地铁通学的人群及出行记录的方法,能够准确地判断通学行为。技术方案:本专利技术所述的一种基于地铁刷卡数据的通学识别方法,包括以下步骤:(1)、数据采集与预处理:需要一个城市连续三周及以上的所有工作日内所有地铁站点的IC数据和地铁站点坐标数据。IC数据包括卡号、进站日期、进站时间、出站日期、出站时间、进站车站号、出站车站号、卡类型。采集地铁IC卡数据后,以持卡人为单位将其连续工作日所有出行记录按时间顺序合并,并筛选出并只保留所有卡类型为学生卡的刷卡记录,删除异常数据。(2)、为每个卡号计算出该卡号所使用的车站出现的频次,找出其中出现频次最高的车站,并统计出现频次最高的车站的数量。(3)、若出现频次最高的车站数量为1,则将该车站作为该卡号的家车站或学校车站的候选车站Si1;若出现频次最高的车站数量为2,则将该两个车站作为该卡号的家车站或学校车站的候选车站Si1和Si2;若出现频次最高的车站数量大于2,则合并邻近站点后再将频率最高的车站作为家车站或学校车站的候选车站Si1,若合并后仍有并列2个频次最高的车站,则将该合并后的两个车站作为该卡号的家车站和学校车站的候选车站Si1和Si2,若合并后并列数大于2,则删除这部分卡号及其出行记录。(4)、对于步骤3中出现频次最高的车站数量为1和大于2的卡号,计算并判断与已选出的候选车站对应的车站中出现频次最高的车站的数量:若出现频次最高的车站数量为1,则将该车站作为该卡号的家车站或学校车站的另一个候选车站Si2;若出现频次最高的车站数量大于2或等于2,则合并邻近站点后再将频率最高的车站作为家车站或学校车站的另一个候选车站Si2,若合并后仍有并列,则删除这部分卡号及其出行记录。(5)、根据中小学作息时间安排,将每个卡号候选车站之间的出行记录按照进站时间分为四类:(I)am:进站时间在上午最晚上学时间之前;(II)pm:进站时间在下午最早放学时间之后;(III)noon1:进站时间在上午最早放学时间至下午最早上学时间范围之内;(IV)noon2:进站时间在下午最早上学时间至下午最晚上学时间范围之内。(6)、对四个类别分别按照卡号、进站时间排序;对于存在出行记录属于(I)类的卡号,将其第一条出行记录的进站车站号确定为家车站,对应的出站车站号为学校车站;对于存在出行记录属于(II)类的卡号,将最后一条出行记录的出站车站号确定为家车站,对应的进站车站号为学校车站;对于存在出行记录属于(III)类的卡号,将第一条出行记录的进站车站号确定为学校车站,对应的出站车站号为家车站;对于存在出行记录属于(IV)类的卡号,将最后一条出行记录的出站车站号确定为学校车站,对应的进站车站号为家车站。(7)、在所有被识别出家车站和学校车站的卡号的出行记录中删掉在上午最晚上学时间之前从学校车站出发的记录以及在下午最晚放学时间之后从家车站出发的记录。(8)、统计每个卡号的通学天数,删除通学天数少于指定阈值天数的卡号及其记录。有益效果:与现有技术相比,本专利技术具有以下优点:本专利技术采用的地铁刷卡数据获取容易,数据全面、客观,使用大数据更容易揭示其自身的规律。尽管目前对地铁通勤行为的识别已经相对成熟,但是由于学生的出行方式会受到家长出行方式的影响,导致其日常使用地铁的模式多样化,不能用传统通勤识别的方法来识别学生的通学行为。因此,本专利技术考虑学生可能存在的被接送行为,结合学校的上学放学时间规定,提出了一种基于地铁刷卡数据的通学行为识别方法。与已有的通勤识别方法相比,本专利技术的时间空间约束更加严格合理,提高了通学识别结果的准确性。附图说明图1为本专利技术的方法流程图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。如图1所示,基于地铁刷卡数据的通学行为识别方法包括三个阶段:一、数据采集与预处理,对应图1中步骤1;二、为每个卡号识别家车站和学校车站,对应图1中步骤2-步骤6;三、删除异常出行记录和通学天数过少的卡号及其出行记录,对应图1中步骤7-步骤8,下面详述具体过程。一、数据采集与预处理根据本专利技术,需要一个城市连续三周及以上的所有工作日内所有地铁站点的IC卡数据和地铁站点坐标数据。本实施例中原始数据为南京2016年10月10号到10月28号的所有地铁站点刷卡数据。在步骤1中,首先将数据库中的原始数据保存成CSV格式由R软件读取,提取其中名为“卡号”、“进站日期”、“进站时间”、“出站日期”、“出站时间”、“进站车站号”、“出站车站号”、“卡类型”、“进站站点经度”、“进站站点纬度”、“出站站点经度”、“出站站点纬度”的列数据,然后对原始数据进行预处理,只保留卡类型为学生卡并且进站日期属于工作日的记录。本专利技术中卡类型为54表示学生卡,删除“进站日期”与“出站日期”不同的记录以及“进站车站号”与“出站车站号”相同的记录,得到原始出行记录数据X。具体数据形式如表1所示。表1地铁刷卡数据示例备注:坐标数据实际应用为保留9位小数二、为每个卡号识别家车站和学校车站首先为每个卡号i找出家车站和学校车站的候选车站Si1和Si2,然后根据该城市的中小学作息时间安排,将每个卡号的两个候选车站之间的出行记录按照进站时间分类,再按照一定的时间规则确定家车站和学校车站。其中家车站代表学生家所在地,学校车站代表学生学校所在地。在步骤2中,本文档来自技高网
...
一种基于地铁刷卡数据的通学识别方法

【技术保护点】
一种基于地铁刷卡数据的通学识别方法,其特征在于,该方法包括以下步骤:(1)采集一定时间段内各地铁站点的IC卡刷卡数据和地铁站点坐标数据,对原始刷卡数据进行预处理,剔除无效数据;(2)为每个卡号计算出该卡号所有车站的出现频次,找出其中出现频次最高的车站,并统计每个卡号的出现频次最高的车站的数量;(3)根据出现频次最高的车站的数量,找出每个卡号的家车站和学校车站的候选车站;(4)根据中小学作息时间安排,将所有卡号候选车站之间的出行记录按照进站时间分为若干类别;(5)针对落入各个类别中的出行记录,根据最早或最晚进站时间确定家车站和学校车站,从而得到通学出行记录。

【技术特征摘要】
1.一种基于地铁刷卡数据的通学识别方法,其特征在于,该方法包括以下步骤:(1)采集一定时间段内各地铁站点的IC卡刷卡数据和地铁站点坐标数据,对原始刷卡数据进行预处理,剔除无效数据;(2)为每个卡号计算出该卡号所有车站的出现频次,找出其中出现频次最高的车站,并统计每个卡号的出现频次最高的车站的数量;(3)根据出现频次最高的车站的数量,找出每个卡号的家车站和学校车站的候选车站;(4)根据中小学作息时间安排,将所有卡号候选车站之间的出行记录按照进站时间分为若干类别;(5)针对落入各个类别中的出行记录,根据最早或最晚进站时间确定家车站和学校车站,从而得到通学出行记录。2.根据权利要求1所述的一种基于地铁刷卡数据的通学行为识别方法,其特征在于,所述步骤(1)中的原始刷卡数据包括:卡号、进站日期、进站时间、出站日期、出站时间、进站车站号、出站车站号、卡类型。3.根据权利要求2所述的一种基于地铁刷卡数据的通学行为识别方法,其特征在于,所述步骤(1)中对原始数据预处理包括:只保留卡类型为学生卡并且进站日期属于工作日的记录,并删除进站车站号和出站车站号相同以及进站日期和出站日期不同的异常数据。4.根据权利要求1所述的一种基于地铁刷卡数据的通学行为识别方法,其特征在于,所述步骤(1)中一定时间段的时长不低于三周。5.根据权利要求1所述的一种基于地铁刷卡数据的通学识别方法,其特征在于,所述步骤(3)中找出家车站和学校车站的候选车站包括:(31)判断每个卡号出现频次最高的车站的数量,若该车站数为1,则对应的车站为该卡号的候选车站Si1;若车站数为2,则对应的两个车站分别为该卡号的候选车站Si1和Si2;若车站数大于2,则将相距不超过指定阈值的站点合并,再令频次最高的车站为Si1,若合并后频次最高的车站数为2,则对应的两个车站分别为该卡号的候选车站Si1和Si2,若合并后频次最高的车站数仍大于2,则删除该卡号及相应记录;(32)对于...

【专利技术属性】
技术研发人员:季彦婕顾宇刘阳刘攀
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1