当前位置: 首页 > 专利查询>复旦大学专利>正文

基于城市语义图谱的轨迹时空语义模式提取方法技术

技术编号:27839083 阅读:29 留言:0更新日期:2021-03-30 12:17
本发明专利技术属于轨迹计算技术领域,具体为一种基于城市语义图谱的轨迹时空语义模式提取方法。本发明专利技术包括:预处理:对轨迹数据进行位置与时间判定,对轨迹数据进行精简,只保留驻留点;语义判别:利用预处理阶段得到的驻留点进行语义信息判别;按照城市语义图谱中的聚类归属进行空间频次权重的加总,最高权重类别的语义标签定义为该驻留点语义;模式提取:将轨迹序列看成带有语义标签的时空驻留点序列,对海量的序列进行基于标签比较的高频序列检验和时空聚合分析,最后提取得到轨迹的时空语义模式。本发明专利技术基于城市语义图谱识别海量轨迹语义信息,克服了传统网格化轨迹模式提取的边界与粒度限制,具有时空语义模式提取数量和精度上的明显优势。明显优势。明显优势。

【技术实现步骤摘要】
基于城市语义图谱的轨迹时空语义模式提取方法


[0001]本专利技术属于轨迹计算
,具体涉及轨迹时空语义模式提取方法。

技术介绍

[0002]时空语义模式(SpatiotemporalPattern)挖掘是一项极具有商业和社会价值的知识发现工作。其主要过程是从时空数据库中寻找最热门的运动轨迹规律和模式,并在此基础上添加人类出行行为语义信息。时空语义模式发掘的前身工作时空模式挖掘往往采用将空间平面划分为细小网格的做法来预处理时空数据,并在网格化的数据划分标准下进行运算和分析。在随后的改进工作中,兴趣区域ROI(Region of Interest)作为一项经典技术被提出。它采用聚类周边的同类高人气网格作为解决边界限制的方法实现了空间粒度的自适应。人类出行的时空模式可以借此被描述为ROI到ROI之间的迁移序列,并可以从海量序列中聚类提取出群体性时空模式。然而,这些方法都是采用基于网格的空间描述方式进行数据的预处理,因此或多或少会受网格边界误差和粒度设置的影响,这使得这类基于网格的时空模式提取算法的可用性受到了挑战。为了打破网格化的限制,不定构型语义信息构建技术被提出以改善时空语义模式的提取算法。利用不定构型语义信息构建技术可以得到一个关于城市语义数据源的知识图谱,可以将其称为城市语义图谱。在本专利技术中,城市语义图谱被定义为是针对城市各细粒度区域进行功能描述的数据结构。它往往以语义兴趣点(Point of Interest,简称POI)聚类的集合形式来表示,可以实现对城市不同地点的人类行为描述,比如购物、教育和医疗等等,这种对城市区域的描述称为语义信息。海量的时空轨迹原始数据本身并没有语义信息标签与标注。为了获得广泛而全面的时空语义模式,针对轨迹做语义补全和模式提取就显得极为重要。需要借助非监督学习的数据挖掘算法设计细粒度的语义知识背景图谱并实现概率关联性推测算法。本专利技术利用城市语义图谱为基础,利用轨迹的时空关联关系进行语义关联度打分,从而推断轨迹点对应的语义。再辅以时空分析算法与高频模式发现等关键策略,提取出高质量细粒度的时空语义模式。

技术实现思路

[0003]本专利技术克服了网格化轨迹模式提取的边界与粒度限制,提出一种基于城市语义图谱的轨迹时空语义模式提取方法。
[0004]本专利技术提供的轨迹时空语义模式提取方法,是基于城市语义图谱识别海量轨迹语义信息并以此提取轨迹时空语义模式。通过对语义序列化、空间临近性和时序连续性三个方面的精确分析来挖掘出行模式,在实际应用中具有时空语义模式提取数量和精度上的先进优势。
[0005]本专利技术提出的基于城市语义图谱的轨迹时空语义模式提取方法,具体步骤分为三个阶段:
[0006](一)预处理阶段:对轨迹数据进行位置与时间判定,寻找驻留点;随后对轨迹数据进行精简,只保留驻留点;
[0007]具体做法,对轨迹数据进行位置与时间判定,寻找在连续的30分钟时间以上的,位置变动在50m距离内的GPS点,这些点的几何中心位置定义为驻留点(stay point),认定为出行者在此地活动,到访了附近的POI点;将轨迹中所有的非驻留点删去,所有轨迹被精简成驻留点的时空迁移序列。
[0008](二)语义判别阶段:利用已经获得的城市语义图谱对预处理阶段得到的驻留点进行语义信息判别;按照城市语义图谱中的聚类归属进行空间频次权重的加总,最高权重类别的语义标签定义为该驻留点语义;
[0009]具体做法为,利用已经获得的城市语义图谱对预处理阶段得到的驻留点进行语义信息判别。对于城市语义图谱中的每个POI点p
I
,其到访频次定义为:
[0010][0011]其中,三倍标准差距离R

需要根据点分布预先计算得到,利用所有距离p
I
点R

以内的驻留点sp累计频次,d(sp,p
I
)指两点之间的距离;
[0012]对于任意一个驻留点sp0,计算一个高斯分布系数:
[0013][0014]用来衡量驻留点和POI点之间的远近关系,则对于任意一对驻留点sp0和POI点p
I
,计算其空间频次权重为:pop(p
I
)
×
||p
I
,sp0||;
[0015]对于驻留点sp0附近的所有POI点,按照其在城市语义图谱中的聚类归属进行加总和投票,每种聚类归属类别的投票权重定义为所属POI点的空间频次权重之和,投票权重最高的类别的语义标签可以定义为该驻留点sp0的语义信息。
[0016](三)模式提取阶段:语义判别阶段识别出的语义标签信息后,可以将轨迹序列看成带有语义标签的时空点序列,对海量的序列进行基于标签比较的高频序列检验和时空聚合分析,最后可以提取得到轨迹的时空语义模式。具体执行以下步骤:
[0017]步骤(1)、序列生成。该步骤采用经典而高效的PrefixSpan算法对轨迹序列的语义标签进行高频序列提取,一般设置支持度为50,具体的执行流程为找出轨迹序列数据中所有长度为1的且出现频次大于支持度的频繁序列模式,针对这些序列模式构造其投影子序列。投影子序列定义为原序列中第一个出现长度为1的频繁序列模式的后续子序列,如果不出现则删除。将每个投影子序列视作一组新序列数据,找出其中所有长度为1的频繁序列模式,同时将投影中的频繁序列模式与之前找到的频繁序列模式前缀合并,构成新的前缀,增长频繁序列模式。不断迭代循环上述的查询和投影操作,最终得到全部的高频语义标签序列模式及其对应的驻留点轨迹数据。
[0018]步骤(2)、空间提取。对于高频语义标签序列模式中的每一个标签,都对应了一个不少于支持度的时空驻留点集合。对于每一个驻留点集合,进行空间聚集点判断。由于这些驻留点都位于城市街区范围内,可以利用城市街道路网信息,先对其进行街区划分,位于同一个街区的驻留点组成一个子空间。在划分后的街区子空间中,计算任何一对驻留点之间的距离,如果距离小于GPS误差精度∈,则认为两点之间存在一条连接边。所有的驻留点和连接边构成了图结构,利用图论算法求解图中的连通分量(子图)。删除所有驻留点数量小于支持度的连通分量。剩余每一个连通分量的驻留点几何中心视为代表点。这些代表点作
为时空模式的空间位置数据被提取出来。
[0019]步骤(3)、时序提取。对于空间提取步骤中提取出的所有代表点,进行时序关联提取。序列生成步骤中的每一高频语义标签序列模式pa,假设其长度为m,即其包含的所有轨迹的长度为m,对其中所有轨迹逐一进行扫描。假设当前扫描到任一轨迹ST
i
∈pa的第k(1≤k≤m)个点,则可以从空间提取步骤的结果中推导得到轨迹集合C
k
,存储所有与当前轨迹ST
i
的k长前缀在时空语义上高度相似的轨迹。预先定义C0=pa,则利用空间提取步骤中的代表点划分关系从C
k
‑1划分出子集C
k
。其子集划分标准为:
[0020]C...

【技术保护点】

【技术特征摘要】
1.一种基于城市语义图谱的轨迹时空语义模式提取方法,其特征在于,具体步骤分为如下三个阶段:(一)预处理阶段:对轨迹数据进行位置与时间判定,寻找驻留点;随后对轨迹数据进行精简,只保留驻留点;(二)语义判别阶段:利用已经获得的城市语义图谱对预处理阶段得到的驻留点进行语义信息判别;按照城市语义图谱中的聚类归属进行空间频次权重的加总,最高权重类别的语义标签定义为该驻留点语义;(三)模式提取阶段:将轨迹序列看成带有语义标签的时空驻留点序列,对海量的序列进行基于标签比较的高频序列检验和时空聚合分析,最后提取得到轨迹的时空语义模式。2.根据权利要求1所述的基于城市语义图谱的轨迹时空语义模式提取方法,其特征在于,预处理阶段的具体操作流程为:对轨迹数据进行位置与时间判定,寻找在连续的30分钟时间以上的,位置变动在50m距离内的GPS点,这些点的几何中心位置定义为驻留点,认定为出行者在此地活动,到访了附近的POI点;将轨迹中所有的非驻留点删去,所有轨迹被精简成驻留点的时空迁移序列。3.根据权利要求2所述的基于城市语义图谱的轨迹时空语义模式提取方法,其特征在于,语义判别阶段利用已经获得的城市语义图谱对预处理阶段得到的驻留点进行语义信息判别;对于城市语义图谱中的每个POI点p
I
,其到访频次定义为:其中,需要根据点分布提前计算出三倍标准差距离R

,利用所有距离p
I
点R

以内的驻留点sp累计频次,d(sp,p
I
)指两点之间的距离;对于任意一个驻留点sp0,计算一个高斯分布系数:来衡量驻留点和POI点之间的远近关系,则对于任意一对驻留点sp0和POI点p
I
,计算其空间频次权重为pop(p
I
)
×
||p
I
,sp0||;对于驻留点sp0附近的所有POI点,按照其在城市语义图谱中的聚类归属进行加总和投票,每种聚类归属类别的投票权重定义为所属POI点的空间频次权重之和,投票权重最高的类别的语义标签可以定义为该驻留点sp0的语义信息。4.根据权利要求3所述的基于城市语义图谱的轨迹时空语义模...

【专利技术属性】
技术研发人员:孙未未单张卿
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1