一种基于ST-LDA的车辆时空出行模式挖掘方法及系统技术方案

技术编号:38509593 阅读:10 留言:0更新日期:2023-08-19 16:54
本发明专利技术涉及一种基于ST

【技术实现步骤摘要】
一种基于ST

LDA的车辆时空出行模式挖掘方法及系统


[0001]本专利技术属于智能交通
,特别是大数据利用智能交通出行
,涉及一种基于ST

LDA的车辆时空出行模式挖掘方法及系统。

技术介绍

[0002]模式被定义为“某事发生或完成的重复或规则方式”。出行模式可以定义为与各种特征相关的重复出行行为,包括出行距离、出行时间、出行频率等方面的内容。在交通规划和交通管理中,了解和研究人们的出行模式,是制定适当的交通政策、优化交通网络和改善交通服务的重要前提。
[0003]现阶段,虽然已经有较多研究关注于挖掘个体出行模式并分析个体出行行为及其规律,但仍存在各种局限。有的方法利用时空数据特征进行拟合的方法,得出特征的分布规律,如幂律分布、对数分布、伽马分布和指数分布等。虽然使用分布拟合数据特征的这一类方法可以较好捕捉数据的分布特性,但是只能理解单一特征或二维特征之间的分布,无法捕捉多维特征之间的多样性和交互关系。有的研究采用聚类算法,该类算法是一种无监督学习算法,用于出行模式挖掘时,不需要预先定义出行模式,而是根据数据的相似性来识别不同的出行模式。虽然聚类算法能够挖掘出多种出行模式,但往往只能提供结果的数量和分类,不能很好地给出不同出行模式下特征的语义化解释。同时,由于聚类算法是基于数据相似性对结果进行划分,因此都是假设区域或个体只属于其中一类结果。然而,如今个体出行需求变得不再单一,区域或个体往往反映出多样的出行模式。例如,某个体出行一部分是因为通勤,一部分是因为娱乐等其他目的。在进行聚类分析时,如果不同数据之间存在较大的异质性,可能会导致聚类结果不够准确。
[0004]基于主题模型的方法通过主题建模对车辆的出行模式进行分析。主题模型源于生成概率模型,最初是用于大型文本语料库中文章主题或中心思想的发现。该方法将车辆的一条行程看作一个单词,将车辆个体的所有行程记录看作一篇文档,将所有车辆的行程记录看作一个文档集合,之后从文档集合中发现潜在主题,即潜在的出行模式。主题模型假设个体的出行由一定概率的出行模式进行描述,避免了聚类算法带来的单一划分问题。然而,这些研究大都将多维特征简单组合为一维的文本数据,忽略了特征之间的关联。
[0005]因此,目前急需一种能克服上述缺点的适用于车辆时空出行模式挖掘的方法和系统。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种基于ST

LDA的车辆时空出行模式挖掘方法及系统,该方法和系统将出行模式建模为时空特征的多项式分布,将个体出行行为建模为出行模式的多项式分布。特别的,本专利技术将出行行为表示为时空特征向量,有效避免了以往方法对个体出行行为的时空信息关联关注不够的问题。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]一种基于ST

LDA的车辆时空出行模式挖掘方法,该方法包括以下步骤:
[0009]S1、数据准备:提取车辆的高速公路行程集,将其转换为行程语料库;
[0010]S2、构建ST

LDA模型:ST

LDA模型包括两个部分:出行模式与时空特征之间的多项式分布,从语义化的特征级别增加模型的可解释性;车辆个体与出行模式之间的多项式分布,很好体现了车辆个体的多样化出行行为;
[0011]S3、模型训练:将得到的行程单词作为输入训练ST

LDA模型,并使用折叠吉布斯采样方法对模型中的隐变量进行求解,得到出行模式识别结果;
[0012]S4、运用模型进行车辆时空出行模式挖掘。
[0013]进一步,在步骤S1中,提取车辆的高速公路行程集并将其转换为行程语料库,具体包括:
[0014]S11:提取高速公路指定时间段的行程记录,根据车辆标识ID整合车辆个体的行程记录,并按照入站时间升序排列,得到车辆个体的行程记录集合;
[0015]S12:将每辆车的每条行程转换为行程单词,转换完成之后,一辆车的所有行程单词构成行程文档,所有车辆的行程文档构成行程语料库。
[0016]进一步,在步骤S12中,将行程转换为行程单词具体包括:
[0017](1):获取行程单词的行程时间间隔标签e;
[0018](2):获取行程单词的行程终点标签r;
[0019](3):获取行程单词的出发时间标签t;
[0020](4):获取行程单词的一周中天数标签q。
[0021]进一步,在步骤S2中,ST

LDA模型假设行程语料库是由以下步骤产生的:
[0022]S21:对于类别为z(z=1,2,..,Z)的出行模式,从狄利克雷分布中生成相应行程单词标签的多项式分布;
[0023]对步骤S21进行Z次重复操作,得到所有出行模式类别对应的行程时空特征分布;
[0024]S22:采样得到Car
i
的行程文档。
[0025]进一步,所述步骤S22采样得到Car
i
的行程文档具体包括:
[0026]S221:从狄利克雷分布中生成Car
i
的出行模式多项式分布;
[0027]S222:根据Car
i
的出行模式多项式分布,从中采样得到一个出行模式类别z,从类别为z的出行模式下的行程时空分布中采样得到相应的行程单词标签。
[0028]进一步,在步骤S3中,模型求解的步骤分为以下步骤:
[0029]S31:随机初始化行程语料库中行程单词所属的出行模式类别;
[0030]S32:对于行程语料库中Car
i
的行程单词:
[0031]S321:从当前行程单词的出行模式中去除该单词相应的时空特征类别标签;
[0032]S322:在其他行程单词和出行模式类别给定的情况下,计算该行程单词属于类别为z的出行模式的后验概率;
[0033]S323:按照计算得到的后验分布进行多项式采样,得到一个新的出行模式类别;
[0034]S324:将当前行程单词的出行模式类别更新为新抽取的出行模式类别;
[0035]重复步骤S32,直至“出行模式

时空特征”分布以及“车辆

出行模式”分布中参数的变化率趋于稳定,则可以认为模型达到收敛状态;
[0036]S33:根据样本,估计“车辆

出行模式”分布和“出行模式

时空特征”分布。
[0037]本专利技术的有益效果在于:
[0038]本专利技术提出的基于ST

LDA对车辆出行模式挖掘的方法优于传统的方法,与现有技术相比较,本专利技术是从车辆个体的出行行为出发,将车辆个体的出行行为建模为出行模式的多项式分布,这种方式体现了个体出行行为的多样性;将出行模式建模为时空特征的多项式分布,这种语义级别的特征不仅从时间和空间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ST

LDA的车辆时空出行模式挖掘方法,其特征在于:该方法包括以下步骤:S1、数据准备:提取车辆的高速公路行程集,将其转换为行程语料库;S2、构建ST

LDA模型:ST

LDA模型包括两个部分:出行模式与时空特征之间的多项式分布,从语义化的特征级别增加模型的可解释性;车辆个体与出行模式之间的多项式分布,体现车辆个体的多样化出行行为;S3、模型训练:将得到的行程单词作为输入训练ST

LDA模型,并使用折叠吉布斯采样方法对模型中的隐变量进行求解,得到出行模式识别结果;S4、运用模型进行车辆时空出行模式挖掘。2.根据权利要求1所述的一种基于ST

LDA的车辆时空出行模式挖掘方法,其特征在于:在步骤S1中,提取车辆的高速公路行程集并将其转换为行程语料库,具体包括:S11:提取高速公路指定时间段的行程记录,根据车辆标识ID整合车辆个体的行程记录,并按照入站时间升序排列,得到车辆个体的行程记录集合;S12:将每辆车的每条行程转换为行程单词,转换完成之后,一辆车的所有行程单词构成行程文档,所有车辆的行程文档构成行程语料库。3.根据权利要求2所述的一种基于ST

LDA的车辆时空出行模式挖掘方法,其特征在于:在步骤S12中,将行程转换为行程单词具体包括:(1):获取行程单词的行程时间间隔标签e;(2):获取行程单词的行程终点标签r;(3):获取行程单词的出发时间标签t;(4):获取行程单词的一周中天数标签q。4.根据权利要求3所述的一种基于ST

LDA的车辆时空出行模式挖掘方法,其特征在于:在步骤S2中,ST

LDA模型假设行程语料库是由以下步骤产生的:S21:对于类别为z(z=1,2,..,Z)的出行模式,从狄利克雷分布中生成相应行程单词标签的多...

【专利技术属性】
技术研发人员:郑林江吴霄唐毅向光华王世森杨洁刘颖
申请(专利权)人:重庆首讯科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1