一种公共交通乘客出行行为时空语义相似性度量方法技术

技术编号:36708613 阅读:61 留言:0更新日期:2023-03-01 09:33
本发明专利技术公开了一种公共交通乘客出行行为时空语义相似性度量方法,该方法的实施步骤包括:(1)基于乘客的刷卡数据提取出发地、出发时间、出行方式、活动类型和目的地5类出行属性,进而构建公共交通乘客个体出行序列;(2)将乘客出行序列中的出行属性表示为离散变量;(3)将出行行为属性和出行序列分别类比为单词和句子,应用Word2vec模型将出行属性转化为词向量,从而实现出行序列的时空语义嵌入表示;(4)利用改进的词移距离度量乘客多天出行行为的时空语义相似性。本发明专利技术解决了传统出行行为相似性度量模型无法考虑其时空语义相关性的缺陷,可以为乘客市场细分、个体出行需求建模和公共交通政策制定等提供支撑。公共交通政策制定等提供支撑。公共交通政策制定等提供支撑。

【技术实现步骤摘要】
一种公共交通乘客出行行为时空语义相似性度量方法


[0001]本专利技术涉及一种公共交通乘客出行行为时空语义相似性度量方法,属于公共交通数据挖掘应用领域。

技术介绍

[0002]公共交通乘客个体的出行行为具有较强的周期性和可预测性,同时也存在受当天活动需求以及其他外部环境的影响而发生变化产生的随机性。随着居民多任务出行比例的增加、工作方式的变化,多样化的活动需求可能会导致个体的出行决策过程更加复杂。研究乘客每天出行行为相似性,揭示个体重复出行行为在中长期时间内变化程度和规律性,可以为掌握出行者的精细化出行需求提供支撑。
[0003]目前基于多源公共交通智能卡数据的乘客个体出行行为研究中,通常采用序列比对模型(Sequence Alignment Model,SAM)进行个体多天出行行为的相似性度量。例如Liu S等在“Exploring travel pattern variability ofpublic transport users through smart card data:role of gender and age”(IEEE Transactions on Intelligent Transportation Systems,vol.23,no.5,pp.4247

4256)以及林鹏飞等在“公共交通乘客个体活动链的日相似性研究”(交通运输系统工程与信息,2020,20(6):178

183,204)分别构建一个多维序列刻画出行行为,以反映刷卡数据中丰富的信息和相互依赖,出行序列通常由出发时间、出行目的和出行方式、同伴等属性构成;在此基础上,采用Levenshtein距离、PrefixSpan算法等度量乘客出行行为的相似性。但Levenshtein距离等只能反映出行行为序列的结构、类别相似性,无法反映出行属性间的时空相关性,导致两个出行序列相似性度量的准确性降低。因此,考虑出行行为属性的时空语义相关性将有助于更好地刻画乘客每天的出行行为相似性。
[0004]在自然语言处理领域,为了度量两个句子的相似性,通常利用词嵌入技术将句子中的每个词表示为一个含有语义的词向量,利用距离函数即可度量两个句子的相似性。目前自然语言处理技术已被应用于交通领域,通过将连续轨迹的经纬度坐标转化为词向量嵌入空间语义信息,进而度量两条轨迹的空间相似性。考虑到出行序列与文本数据具有类似的结构和特点,每一条出行序列反映了活动与出行、相邻活动之间的相互关联和时空约束,而这种关系和自然语言的结构特征类似,即上下文相同的词语其语义也相似。因此,本专利技术采用自然语言处理技术度量乘客每天出行行为的时空语义相似性。

技术实现思路

[0005]本专利技术的目的是为了提供一种公共交通乘客出行行为时空语义相似性度量方法,用于分析乘客的长期出行行为规律,便于了解个体在不同时空条件下出行行为决策机制和复杂性。以乘客的公共交通刷卡数据为基础,从多个维度提取出行属性信息,进而构建公共交通乘客个体多维出行序列;利用Word2vec模型捕获出行属性不同粒度之间的时空语义相关性;采用改进的词移距离度量出行序列之间的时空语义相似性,刻画乘客每天出行行为
的变化。
[0006]本专利技术的技术方案:一种公共交通乘客出行行为时空语义相似性度量方法,包括以下技术方案:
[0007]步骤1:公共交通乘客个体出行序列构建。
[0008]步骤1.1乘客个体出行链构建
[0009]基于乘客的公交、地铁、公共自行车的智能卡交易数据、站点线路的空间矢量数据、车辆运行数据等多源数据,采用多源数据融合构建乘客个体出行链,个体出行链应包含乘客的卡号、智能卡类型、出行方式、出行开始和结束时间、出行起点和终点的站点名和站点经纬度、出行距离等信息。
[0010]步骤1.2活动地提取
[0011]将乘客的出行链数据按出发时间顺序进行排序,提取出每次出行的起点和终点的站点,构成该名乘客的活动地站点集合。利用DBSCAN算法将每一位乘客的活动地站点集合分别聚类,即将活动地附近的空间位置相邻的站点聚类处理。本专利技术中DBSCAN算法的距离计算方式采用Haversine距离,邻域半径r和最小样本分别设置为500米和1。
[0012]步骤1.3居住地位置识别
[0013]考虑到大多数乘客的出行行为具有对称性,即乘客一天内最后一次出行的目的地与当天第一次出行的出发地相同;当天第一次出行的出发地与前一天最后一次出行的目的地相同,且均位于其居住地附近。因此,本专利技术利用乘客每天第一次出行和最后一次出行的起终点位置识别乘客的居住地位置,具体步骤如下:
[0014]S1.选取1名乘客的出行链数据,按出发时间升序排序。
[0015]S2.该乘客当天的出行链条数大于等于2时,将第一条出行链和最后一条出行链分别视为当天第一次出行和最后一次出行;出行链条数若为1,则将出发时间早于12:00的出行链定义为当天第一次出行,晚于12:00的出行链定义为最后一次出行。
[0016]S3.提取该乘客研究周期内所有第一次出行的出发地和最后一次出行的目的地,将出行最频繁的活动地点定义为该乘客居住地。
[0017]S4.重复上述步骤直至所有出行者均被遍历,结束算法。
[0018]步骤1.4活动类型推断
[0019]首先基于乘客的当前出行链t、相邻出行链t+1的起点和相邻出行链t

1的终点位置对乘客是否处于活动状态进行识别,并计算活动起止时间,具体步骤如下:
[0020]S1.提取1名出行者的出行链数据,按出发时间升序排序。当出行链t为周期内第一次出行,或出行链t与出行链t

1的间隔大于1天,则认为出行者在出行链t出发时间之前在t的起点处于活动状态。
[0021]S2.当出行链t和出行链t

1发生在同一天,或者在出行链t

1之后的第2天,并且出行链t

1的终点与出行链t的起点相同,则认为乘客处于活动状态;若不同,则认为乘客在该期间采用了非公共交通方式出行。
[0022]S3.当出行链t与出行链t+1在同一天,或者在出行链t

1的前一天,则按S2处理。
[0023]S4.当出行链t与出行链t+1间隔大于1天,或者出行链t是乘客在周期内最后一次出行,则认为从出行链t的结束时刻到当天结束,乘客在行程t的终点处于活动状态。
[0024]S5.重复上述步骤直至所有出行者的出行链均被遍历,结束算法。
[0025]然后根据乘客的智能卡类型、活动地点的访问频率和活动起止时间对乘客每次出行的活动类型进行推断,推断步骤如下:
[0026]S1.居住地以外访问频率最高的活动地定义为第一活动地,将“居住地”、“第一活动地”之外的剩余活动地定义为“其他活动地”。
[0027]S2.若出行目的地位于第一活动地,且活动起止时间在5:00
...

【技术保护点】

【技术特征摘要】
1.一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,包括以下步骤:步骤1:公共交通乘客个体出行序列构建;步骤2:出行序列离散化表示;步骤3:基于Word2vec模型嵌入时空语义信息;步骤4:基于改进的词移距离度量出行序列的时空语义相似性。2.根据权利要求1所述的一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,步骤1所述的个体出行序列构建的步骤具体包括:步骤1、基于多源数据融合构建乘客个体出行链,个体出行链包含乘客的卡号、智能卡类型、出行方式、出行开始和结束时间、出行起点和终点的站点名和站点经纬度、出行距离;步骤2、将乘客的出行链数据按出发时间顺序进行排序,提取出每次出行的起点和终点的站点,构成该名乘客的活动地站点集合,并利用DBSCAN算法将乘客活动地站点集合聚类;步骤3、利用乘客每天第一次出行和最后一次出行的起终点位置识别乘客的居住地位置,具体步骤为:S1.选取1名乘客的出行链数据,按出发时间升序排序;S2.该乘客当天的出行链条数大于等于2时,将第一条出行链和最后一条出行链分别视为当天第一次出行和最后一次出行;出行链条数若为1,则将出发时间早于12:00的出行链定义为当天第一次出行,晚于12:00的出行链定义为最后一次出行;S3.提取该乘客研究周期内所有第一次出行的出发地和最后一次出行的目的地,将出行最频繁的活动地点定义为该乘客居住地;S4.重复步骤S1

S3直至所有出行者均被遍历;步骤4、基于乘客的当前出行链t、相邻出行链t+1的起点和相邻出行链t

1的终点位置对乘客是否处于活动状态进行识别,并计算活动起止时间,实现活动类型推断,具体步骤为:S1.提取1名出行者的出行链数据,按出发时间升序排序;当出行链t为周期内第一次出行,或出行链t与出行链t

1的间隔大于1天,则认为出行者在出行链t出发时间之前在t的起点处于活动状态;S2.当出行链t和出行链t

1发生在同一天,或者在出行链t

1之后的第2天,并且出行链t

1的终点与出行链t的起点相同,则认为乘客处于活动状态;若不同,则认为乘客采用非公共交通方式出行;S3.当出行链t与出行链t+1在同一天,或者在出行链t

1的前一天,则按S2处理;S4.当出行链t与出行链t+1间隔大于1天,或者出行链t是乘客在周期内最后一次出行,则认为从出行链t的结束时刻到当天结束,乘客在行程t的终点处于活动状态;S5.重复上述步骤直至所有出行者的出行链均被遍历;然后根据乘客的智能卡类型、活动地点的访问频率和活动起止时间对乘客每次出行的活动类型进行推断,推断步骤如下:S1.居住地以外访问频率最高的活动地定义为第一活动地,将“居住地”、“第一活动地”之外的剩余活动地定义为“其他活动地”;S2.若出行目的地位于第一活动地,且活动起止时间在5:00

23:00之间,则分别针对普通卡、学生卡和老年卡定义为“工作”、“学习”和“生活外出”;
S3.若出行的目的地为乘客“居住地”,则活动类型定义为“居家”;S4.若出行的目的地为“其他活动地”,则活动类型定义为“其他”;将乘客1天中所有出行链按出发时间先后顺序进行首尾拼接,得到乘客一天的出行序列,即Sequence
p,d
={trip
k
(startPoint,travelMode,departureTime,activityType,endPoint),|k=1,2,
···
,N},其中Sequence
p,d
表示第p位出行者在第d天的出行序列,trip
k
表示当天该出行者的第k次出行,startPoint,travelMode,departureTime,activityType和endPoint分别表示出行起点、出行方式、出发时间、活动类型和目的地5类出行属性。3.根据权利要求2所述的一种公共交通乘客出行行为时空语义相似性度量方法,其特征在于,步骤2所述的出行序列离散化表示,是将出行序列中的出行起点、出行方式、...

【专利技术属性】
技术研发人员:林鹏飞张云飞翁剑成王茂林李文杰
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1