一种基于语义相似度的轨迹聚类方法技术

技术编号：27590019 阅读：23 留言：0更新日期：2021-03-10 10:07

本发明专利技术公开了一种基于语义相似度的轨迹聚类方法，属于聚类方法技术领域，解决现有技术中的相似性度量对数据进行挖掘时，存在着效率较低、聚类结果不合理的问题。本发明专利技术基于需要挖掘的数据的应用领域定义语义轨迹，再基于语义轨迹得到语义轨迹相似性；给定轨迹训练数据集，抽取数个轨迹，再基于定义的语义轨迹相似性采用箱型图计算相似度阈值；基于相似度阈值对轨迹集中的各轨道进行聚类。本发明专利技术用于轨迹聚类。迹聚类。迹聚类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义相似度的轨迹聚类方法

[0001]一种基于语义相似度的轨迹聚类方法，用于轨迹聚类，属于聚类方法

技术介绍

[0002]相似性度量是轨迹数据分析中的一个重要研究问题，对于大多数轨迹数据挖掘问题而言，都需要进行轨迹之间的比较，因此，轨迹相似性度量的复杂性会直接影响到相关技术的运行效率和可行性。现有技术中，相似性度量大多采用动态规划实现，需要计算所有轨迹点的成对距离，具体为：动态规划需要计算每条轨迹的每一个点到其他所有轨迹的所有点的距离，时间复杂度很高，为0(n2)，n为点的数量，当轨迹数量大量增加时，所需的时间非常可观，甚至难以计算，因此采用动态规划具有二次时间复杂度。而提出的聚类方法，根据同一轨迹簇内的所有轨迹彼此之间都有一定程度的相似，从而设计了一种基于阈值的剪枝方法，对于一条轨迹，不用计算它与其他所有轨迹的相似度，如果它与一个轨迹簇内的一条轨迹相似度非常低，则可以认为它与这个轨迹簇内的所有轨迹相似度都不会很高，相反如果它与一个轨迹簇内的一条轨迹相似度很高，则可以认为它与这个轨迹簇内的所有轨迹都有一定的相似度。通过这个策略，在保证一定的准确度的情况下，减少了大量的轨迹对之间的相似度计算，从而提高了聚类效率。但聚类算法通常从时间或空间角度对相似的轨迹进行聚类，如轨迹都是居住场所
‑
>交通场所
‑
>娱乐场所，其时间和空间上有可能都有不同，单一的只考虑时间或空间因素，轨迹之间的语义关系会被忽略，可能导致不合理的轨迹聚类结果。因此，存在着效...

【技术保护点】

【技术特征摘要】
1.一种基于语义相似度的轨迹聚类方法，其特征在于，如下步骤：S1、基于需要挖掘的数据的应用领域定义语义轨迹，再基于定义的语义轨迹得到语义轨迹相似性；S2、给定轨迹训练数据集，抽取数个轨迹，基于语义轨迹相似性采用箱型图计算相似度阈值；S3、基于相似度阈值对轨迹集中的各轨道进行聚类。2.根据权利要求1所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤S1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。3.根据权利要求2所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤S1中得到语义轨迹相似性的步骤如下：S1.1、给定一条语义轨迹序列T
i
＝{t
i，1
，t
i，2
，
……
，t
i，j
，
……
t
i，n
}，其中，n是轨迹的点的个数，t
i，j
是轨迹T
i
的第j个点，t
i，j
由m个属性(p1，p2，
……
，p
m
)组成，m个属性中的各属性由距离属性和语义属性组成；S1.2、基于语义轨迹中t
i，j
的m个属性得到语义轨迹相似性。4.根据权利要求3所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤S1.1中距离属性的公式为：语义属性的公式为：SIM
semantic
(P
m
)＝H
‑
1其中，是指轨迹T
i
的第x个点的第m个属性，是指轨迹T
k
的第y个点的第m个属性，T
i
和T
k
两条轨迹的点的数量相等或不相等，H是和在层次树中最近公共父节点的层数。5.根据权利要求4所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤S1.2得到的语义轨迹相似性的公式为：SIM＝w1·
SIM
distance
+w2·
∑SIM
semantic
(p
m
)其中，w1为空间相似度所占权重，w2为语义相似度所占权重，...

【专利技术属性】
技术研发人员：牛新征，刘鹏飞，望馨，何玲，杨胜瀚，陈冬子，刘鹏鹏，王芳姝，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人