一种基于语义相似度的轨迹聚类方法技术

技术编号:27590019 阅读:23 留言:0更新日期:2021-03-10 10:07
本发明专利技术公开了一种基于语义相似度的轨迹聚类方法,属于聚类方法技术领域,解决现有技术中的相似性度量对数据进行挖掘时,存在着效率较低、聚类结果不合理的问题。本发明专利技术基于需要挖掘的数据的应用领域定义语义轨迹,再基于语义轨迹得到语义轨迹相似性;给定轨迹训练数据集,抽取数个轨迹,再基于定义的语义轨迹相似性采用箱型图计算相似度阈值;基于相似度阈值对轨迹集中的各轨道进行聚类。本发明专利技术用于轨迹聚类。迹聚类。迹聚类。

【技术实现步骤摘要】
一种基于语义相似度的轨迹聚类方法


[0001]一种基于语义相似度的轨迹聚类方法,用于轨迹聚类,属于聚类方法


技术介绍

[0002]相似性度量是轨迹数据分析中的一个重要研究问题,对于大多数轨迹数据挖掘问题而言,都需要进行轨迹之间的比较,因此,轨迹相似性度量的复杂性会直接影响到相关技术的运行效率和可行性。现有技术中,相似性度量大多采用动态规划实现,需要计算所有轨迹点的成对距离,具体为:动态规划需要计算每条轨迹的每一个点到其他所有轨迹的所有点的距离,时间复杂度很高,为0(n2),n为点的数量,当轨迹数量大量增加时,所需的时间非常可观,甚至难以计算,因此采用动态规划具有二次时间复杂度。而提出的聚类方法,根据同一轨迹簇内的所有轨迹彼此之间都有一定程度的相似,从而设计了一种基于阈值的剪枝方法,对于一条轨迹,不用计算它与其他所有轨迹的相似度,如果它与一个轨迹簇内的一条轨迹相似度非常低,则可以认为它与这个轨迹簇内的所有轨迹相似度都不会很高,相反如果它与一个轨迹簇内的一条轨迹相似度很高,则可以认为它与这个轨迹簇内的所有轨迹都有一定的相似度。通过这个策略,在保证一定的准确度的情况下,减少了大量的轨迹对之间的相似度计算,从而提高了聚类效率。但聚类算法通常从时间或空间角度对相似的轨迹进行聚类,如轨迹都是居住场所

>交通场所

>娱乐场所,其时间和空间上有可能都有不同,单一的只考虑时间或空间因素,轨迹之间的语义关系会被忽略,可能导致不合理的轨迹聚类结果。因此,存在着效率较低、聚类结果不合理的问题。

技术实现思路

[0003]针对上述研究的问题,本专利技术的目的在于提供一种基于语义相似度的轨迹聚类方法,解决现有技术中的相似性度量对数据进行挖掘时,存在着效率较低、聚类结果不合理的问题。
[0004]为了达到上述目的,本专利技术采用如下技术方案:
[0005]一种基于语义相似度的轨迹聚类方法,如下步骤:
[0006]S1、基于需要挖掘的数据的应用领域定义语义轨迹,再基于定义的语义轨迹得到语义轨迹相似性;
[0007]S2、给定轨迹训练数据集,抽取数个轨迹,基于语义轨迹相似性采用箱型图计算相似度阈值;
[0008]S3、基于相似度阈值对轨迹集中的各轨道进行聚类。
[0009]进一步,步骤S1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。
[0010]进一步,步骤S1中得到语义轨迹相似性的步骤如下:
[0011]S1.1、给定一条语义轨迹序列T
i
={t
i,1
,t
i,2

……
,t
i,j

……
t
i,n
},其中,n是轨迹的点的个数,t
i,j
是轨迹T
i
的第j个点,t
i,j
由m个属性(p1,p2,
……
,p
m
)组成,m个属性中的各
属性由距离属性和语义属性组成;
[0012]S1.2、基于语义轨迹中t
i,j
的m个属性得到语义轨迹相似性。
[0013]进一步,步骤S1.1中距离属性的公式为:
[0014][0015]语义属性的公式为:
[0016]SIM
semantic
(P
m
)=H
‑1[0017]其中,是指轨迹T
i
的第x个点的第m个属性,是指轨迹T
k
的第y个点的第m个属性,T
i
和T
k
两条轨迹的点的数量相等或不相等,H是和在层次树中最近公共父节点的层数。
[0018]进一步,步骤S1.2得到的语义轨迹相似性的公式为:
[0019]SIM=w1·
SIM
distance
+w2·
∑SIM
semantic
(p
m
)
[0020]其中,w1为空间相似度所占权重,w2为语义相似度所占权重,w1+w2=1。
[0021]进一步,步骤S2的具体步骤为:
[0022]S2.1、给定轨迹训练数据集,并从训练轨迹数据集中随机抽取10%的轨迹,基于语义轨迹相似性计算出两两之间的相似度,得到相似度序列sim
e
={SIM1,SIM2,
……
,SIM
k
};
[0023]S2.2、根据相似度序列和四分位数的位置公式确定四分位数的位置,四分位数的位置公式如下:
[0024][0025]其中,i的取值为1、2或3,k为相似度序列sim
e
的长度,L1为下四分位数Q1在相似度序列中的位置,L2为中位数Q2在相似度序列中的位置,L3为上四分位数Q3在相似度序列中的位置;
[0026]S2.3、根据L1、L2、L3计算相应的下四分位数Q1、中位数Q2以及上四分位数Q3,并取相似度阈值∈1为Q1,∈2为Q3。
[0027]进一步,步骤S3的具体步骤为:
[0028]S3.1、从数据轨迹集D中随机选定一条轨迹T
i
,若随机选定轨迹T
i
为首条轨迹,创建轨迹簇,否则,计算轨迹T
i
与轨迹簇的相似度:
[0029](1)选择一轨迹簇作为当前轨迹簇,从当前轨迹簇随机选取的一轨迹作为对比的当前轨迹;
[0030](2)计算轨迹T
i
与当前轨迹的相似度;
[0031](3)若相似度大于等于阈值∈2,则将轨迹T
i
加入当前轨迹簇;
[0032](4)若相似度小于等于阈值∈1,判断轨迹簇是否都已比较,若是,新创建一个轨迹簇,将轨迹T
i
加入新创建的轨迹簇,若否,重新选择一轨迹簇作为当前轨迹簇,再转到步骤(2)执行;
[0033](5)若相似度大于∈1小于∈2,判断当前轨迹簇中是否还有未与轨迹T
i
进行比较的轨迹,若是,从未比较的轨迹中重新选择一条轨迹作为当前轨迹,再转到步骤(2)执行,若
否,判断轨迹簇是否都已比较,若是,则将轨迹T
i
加入平均相似度最高的轨迹簇,若否,重新选择一轨迹簇作为当前轨迹簇,再转到步骤(2)执行。
[0034]S3.2、若数据轨迹集中的轨迹都聚类完,得到N个轨迹簇C1,C2,
……
,CN,D=C1∪C2∪
……
∪CN;否则,重复步骤S3.1,直到聚类完成。
[0035]本专利技术同现有技术相比,其有益效果表现在:
[0036]本专利技术采用了新的轨迹相似度度量方法,与传统的仅考虑空间坐标信息和时间戳的相似性度量方法相比,考虑了轨迹语义信息,不仅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义相似度的轨迹聚类方法,其特征在于,如下步骤:S1、基于需要挖掘的数据的应用领域定义语义轨迹,再基于定义的语义轨迹得到语义轨迹相似性;S2、给定轨迹训练数据集,抽取数个轨迹,基于语义轨迹相似性采用箱型图计算相似度阈值;S3、基于相似度阈值对轨迹集中的各轨道进行聚类。2.根据权利要求1所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤S1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。3.根据权利要求2所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤S1中得到语义轨迹相似性的步骤如下:S1.1、给定一条语义轨迹序列T
i
={t
i,1
,t
i,2

……
,t
i,j

……
t
i,n
},其中,n是轨迹的点的个数,t
i,j
是轨迹T
i
的第j个点,t
i,j
由m个属性(p1,p2,
……
,p
m
)组成,m个属性中的各属性由距离属性和语义属性组成;S1.2、基于语义轨迹中t
i,j
的m个属性得到语义轨迹相似性。4.根据权利要求3所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤S1.1中距离属性的公式为:语义属性的公式为:SIM
semantic
(P
m
)=H

1其中,是指轨迹T
i
的第x个点的第m个属性,是指轨迹T
k
的第y个点的第m个属性,T
i
和T
k
两条轨迹的点的数量相等或不相等,H是和在层次树中最近公共父节点的层数。5.根据权利要求4所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤S1.2得到的语义轨迹相似性的公式为:SIM=w1·
SIM
distance
+w2·
∑SIM
semantic
(p
m
)其中,w1为空间相似度所占权重,w2为语义相似度所占权重,...

【专利技术属性】
技术研发人员:牛新征刘鹏飞望馨何玲杨胜瀚陈冬子刘鹏鹏王芳姝
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1