【技术实现步骤摘要】
一种公共交通乘客出行行为时空语义相似性度量方法
[0001]本专利技术涉及一种公共交通乘客出行行为时空语义相似性度量方法,属于公共交通数据挖掘应用领域。
技术介绍
[0002]公共交通乘客个体的出行行为具有较强的周期性和可预测性,同时也存在受当天活动需求以及其他外部环境的影响而发生变化产生的随机性。随着居民多任务出行比例的增加、工作方式的变化,多样化的活动需求可能会导致个体的出行决策过程更加复杂。研究乘客每天出行行为相似性,揭示个体重复出行行为在中长期时间内变化程度和规律性,可以为掌握出行者的精细化出行需求提供支撑。
[0003]目前基于多源公共交通智能卡数据的乘客个体出行行为研究中,通常采用序列比对模型(Sequence Alignment Model,SAM)进行个体多天出行行为的相似性度量。例如Liu S等在“Exploring travel pattern variability ofpublic transport users through smart card data:role of gender and age”(IEEE Transactions on Intelligent Transportation Systems,vol.23,no.5,pp.4247
‑
4256)以及林鹏飞等在“公共交通乘客个体活动链的日相似性研究”(交通运输系统工程与信息,2020,20(6):178
‑
183,204)分别构建一个多维序列刻画出行行为,以反映刷卡数据中丰富的
【技术保护点】
【技术特征摘要】
1.一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,包括以下步骤:步骤1:公共交通乘客个体出行序列构建;步骤2:出行序列离散化表示;步骤3:基于Word2vec模型嵌入时空语义信息;步骤4:基于改进的词移距离度量出行序列的时空语义相似性。2.根据权利要求1所述的一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,步骤1所述的个体出行序列构建的步骤具体包括:步骤1、基于多源数据融合构建乘客个体出行链,个体出行链包含乘客的卡号、智能卡类型、出行方式、出行开始和结束时间、出行起点和终点的站点名和站点经纬度、出行距离;步骤2、将乘客的出行链数据按出发时间顺序进行排序,提取出每次出行的起点和终点的站点,构成该名乘客的活动地站点集合,并利用DBSCAN算法将乘客活动地站点集合聚类;步骤3、利用乘客每天第一次出行和最后一次出行的起终点位置识别乘客的居住地位置,具体步骤为:S1.选取1名乘客的出行链数据,按出发时间升序排序;S2.该乘客当天的出行链条数大于等于2时,将第一条出行链和最后一条出行链分别视为当天第一次出行和最后一次出行;出行链条数若为1,则将出发时间早于12:00的出行链定义为当天第一次出行,晚于12:00的出行链定义为最后一次出行;S3.提取该乘客研究周期内所有第一次出行的出发地和最后一次出行的目的地,将出行最频繁的活动地点定义为该乘客居住地;S4.重复步骤S1
‑
S3直至所有出行者均被遍历;步骤4、基于乘客的当前出行链t、相邻出行链t+1的起点和相邻出行链t
‑
1的终点位置对乘客是否处于活动状态进行识别,并计算活动起止时间,实现活动类型推断,具体步骤为:S1.提取1名出行者的出行链数据,按出发时间升序排序;当出行链t为周期内第一次出行,或出行链t与出行链t
‑
1的间隔大于1天,则认为出行者在出行链t出发时间之前在t的起点处于活动状态;S2.当出行链t和出行链t
‑
1发生在同一天,或者在出行链t
‑
1之后的第2天,并且出行链t
‑
1的终点与出行链t的起点相同,则认为乘客处于活动状态;若不同,则认为乘客采用非公共交通方式出行;S3.当出行链t与出行链t+1在同一天,或者在出行链t
‑
1的前一天,则按S2处理;S4.当出行链t与出行链t+1间隔大于1天,或者出行链t是乘客在周期内最后一次出行,则认为从出行链t的结束时刻到当天结束,乘客在行程t的终点处于活动状态;S5.重复上述步骤直至所有出行者的出行链均被遍历;然后根据乘客的智能卡类型、活动地点的访问频率和活动起止时间对乘客每次出行的活动类型进行推断,推断步骤如下:S1.居住地以外访问频率最高的活动地定义为第一活动地,将“居住地”、“第一活动地”之外的剩余活动地定义为“其他活动地”;S2.若出行目的地位于第一活动地,且活动起止时间在5:00
‑
23:00之间,则分别针对普通卡、学生卡和老年卡定义为“工作”、“学习”和“生活外出”;
S3.若出行的目的地为乘客“居住地”,则活动类型定义为“居家”;S4.若出行的目的地为“其他活动地”,则活动类型定义为“其他”;将乘客1天中所有出行链按出发时间先后顺序进行首尾拼接,得到乘客一天的出行序列,即Sequence
p,d
={trip
k
(startPoint,travelMode,departureTime,activityType,endPoint),|k=1,2,
···
,N},其中Sequence
p,d
表示第p位出行者在第d天的出行序列,trip
k
表示当天该出行者的第k次出行,startPoint,travelMode,departureTime,activityType和endPoint分别表示出行起点、出行方式、出发时间、活动类型和目的地5类出行属性。3.根据权利要求2所述的一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,步骤2所述的出行序列离散化表示,是将出行序列中的出行起点、出行方式、...
【专利技术属性】
技术研发人员:林鹏飞,张云飞,翁剑成,王茂林,李文杰,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。