一种深度轨迹聚类方法、系统及存储介质技术方案

技术编号:37711613 阅读:9 留言:0更新日期:2023-06-02 00:04
本发明专利技术提供一种深度轨迹聚类方法、系统及存储介质,包括:得到第一增广数据集合和第二增广数据集合;将第一增广数据集合输入到训练好的轨迹编码模型中得到轨迹编码向量,将第二增广数据集合输入到轨迹动量编码模型中得到轨迹动量编码向量;确定聚类中心、第一类别概率分布和第二类别概率分布,并计算第一目标分布和第二目标分布;计算KL散度对比学习损失;确定第一投影向量和第二投影向量,计算轨迹投影向量对比损失;确定第一轨迹预测向量和第二轨迹预测向量,计算轨迹类别对比损失;确定总模型损失,迭代更新轨迹编码模型和聚类中心,基于最后一次迭代过程中获得的轨迹编码向量及聚类中心对待聚类轨迹数据进行聚类。该方法轨迹数据聚类效果好。轨迹数据聚类效果好。轨迹数据聚类效果好。

【技术实现步骤摘要】
一种深度轨迹聚类方法、系统及存储介质


[0001]本专利技术涉及大数据挖掘
,尤其涉及一种深度轨迹聚类方法、系统及存储介质。

技术介绍

[0002]轨迹数据是城市中人、车、物移动过程中相关传感器设备(如手机)产生的具有时间、空间双重属性的数据。轨迹数据可以揭示人、车、物的移动规律,近年来被广泛应用于交通流量预测、实时人口统计分析、疫情密接人员挖掘等智慧城市的各个领域。轨迹聚类是轨迹模式挖掘的常用技术,可用于对不同的轨迹模式进行识别和区分,例如周期性轨迹模式识别、频繁轨迹模式识别等。早期的轨迹聚类技术主要是基于原始轨迹相似度度量,计算结果受噪声干扰较大。随着深度学习技术的应用,学者们利用深度学习模型对原始轨迹序列进行表征学习,得到相同长度的轨迹表示向量,再利用K

means等聚类算法实现轨迹聚类。例如,Fang等人提出了一种端到端的深度轨迹聚类技术,利用序列到序列模型学习轨迹表示向量,再基于K

means对轨迹表示向量进行聚类,并把聚类损失和序列到序列模型解码器利用轨迹表示向量重构原始轨迹序列的轨迹重构损失进行同步优化。
[0003]然而,现有基于深度学习的轨迹聚类方法对聚类过程的优化只是通过强化轨迹表征向量距离各个聚类中心的距离分布来实现,而未探索相同和不相同类型轨迹之间的关系,以及各个轨迹类别之间的关系,因此使得轨迹聚类性能受限。此外,现有方法只是将轨迹看作空间转移序列,而忽略了每个轨迹点的访问时间特征,导致无法基于海量无标注数据挖掘精细的轨迹时空移动模式特征,比如群体伴随移动模式等。因而,现有的轨迹聚类方法虽然可实现轨迹的聚类,但其存在着轨迹聚类效果差的缺点;因此,如何提高轨迹聚类的效果是亟待解决的技术问题。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种深度轨迹聚类方法、系统及存储介质,以解决现有技术中存在的一个或多个问题。
[0005]根据本专利技术的一个方面,本专利技术公开了一种深度轨迹聚类方法,所述方法包括:
[0006]获取待聚类轨迹数据,对所述待聚类轨迹数据进行数据增广得到第一增广数据集合和第二增广数据集合;其中,各待聚类轨迹数据包括多个轨迹点,各所述轨迹点包括时间信息和位置信息;
[0007]将所述第一增广数据集合输入到训练好的轨迹编码模型中得到轨迹编码向量,将所述第二增广数据集合输入到轨迹动量编码模型中得到轨迹动量编码向量;
[0008]基于所述轨迹编码向量确定聚类中心,基于各所述轨迹编码向量以及所述聚类中心确定所述第一增广数据集合中各轨迹数据对应的第一类别概率分布,基于所述第一增广数据集合中各轨迹数据对应的第一类别概率分布计算第一目标分布,基于各所述轨迹动量编码向量以及所述聚类中心确定所述第二增广数据集合中各轨迹数据对应的第二类别概
率分布,基于所述第二增广数据集合中各轨迹数据对应的第二类别概率分布计算第二目标分布;
[0009]基于所述第一类别概率分布、第一目标分布、第二类别概率分布以及第二目标分布计算KL散度对比学习损失;
[0010]基于第一前馈神经网络分别确定所述轨迹编码向量和所述轨迹动量编码向量对应的第一投影向量和第二投影向量,基于所述第一投影向量和第二投影向量计算轨迹投影向量对比损失;
[0011]基于第二前馈神经网络分别确定所述轨迹编码向量和所述轨迹动量编码向量对应的第一轨迹预测向量和第二轨迹预测向量,基于所述第一轨迹预测向量和第二轨迹预测向量计算轨迹类别对比损失;
[0012]基于轨迹编码模型损失、所述KL散度对比学习损失、轨迹投影向量对比损失以及轨迹类别对比损失确定总模型损失,基于所述总模型损失迭代更新所述轨迹编码模型和聚类中心;
[0013]基于最后一次迭代过程中获得的所述轨迹编码向量及聚类中心对所述待聚类轨迹数据进行聚类。
[0014]在本专利技术的一些实施例中,所述方法还包括:
[0015]构建初始轨迹编码模型;
[0016]基于交叉熵损失函数计算轨迹编码模型的空间位置预测损失和被遮蔽轨迹点时间预测损失,基于所述空间位置预测损失和被遮蔽轨迹点时间预测损失确定所述轨迹编码模型损失;
[0017]基于所述轨迹编码模型损失更新所述初始轨迹编码模型的模型参数得到训练好的轨迹编码模型。
[0018]在本专利技术的一些实施例中,所述数据增广包括:
[0019]对所述待聚类轨迹数据进行稀疏化操作;或
[0020]为所述待聚类轨迹数据添加位置噪声或时间噪声;或
[0021]对所述待聚类轨迹数据进行插值操作。
[0022]在本专利技术的一些实施例中,所述轨迹编码模型和所述轨迹动量编码模型均为BERT模型;
[0023]其中,所述轨迹动量编码模型的参数基于所述轨迹编码模型的参数进行动量更新,且所述轨迹动量编码模型的参数计算公式为:
[0024]θ2=mθ2+(1

m)θ1;
[0025]θ1、θ2分别为轨迹编码模型和轨迹动量编码模型的模型参数,m为动量参数。
[0026]在本专利技术的一些实施例中,第一目标分布或第二目标分布的计算公式为:
[0027][0028]其中,p
i,j
表示第一目标分布或第二目标分布,q
i,j
表示轨迹i属于类别j的概率,f
j
=∑
i
q
i,j
,q
i,j

表示轨迹i属于类别j

的概率,f
j

表示各轨迹属于类别j

的概率之和,f
j

=∑
i
q
i,j

,其中j

表示任意类别,j

=1,2

N,i表示当前计算的特定轨迹,i=1,2

M,j表示当前计算的特定类别,j=1,2

N,N表示类别总数量,M表示轨迹总数量。
[0029]在本专利技术的一些实施例中,所述KL散度对比学习损失的计算公式为:L
kl
=(KL(P2||Q1)+KL(P1||Q2))/2;其中,P1表示第一类别概率分布,Q1表示第一目标分布,P2表示第二类别概率分布,Q2表示第二目标分布。
[0030]在本专利技术的一些实施例中,基于所述第一投影向量和第二投影向量计算轨迹投影向量对比损失,包括:
[0031]基于所述第一投影向量和第二投影向量通过InfoNCE损失函数计算轨迹投影向量对比损失;
[0032]基于所述第一轨迹预测向量和第二轨迹预测向量计算轨迹类别对比损失,包括:
[0033]基于所述第一轨迹预测向量和第二轨迹预测向量通过InfoNCE损失函数计算轨迹类别对比损失。
[0034]在本专利技术的一些实施例中,总模型损失为:
[0035]L=ω1L...

【技术保护点】

【技术特征摘要】
1.一种深度轨迹聚类方法,其特征在于,所述方法包括:获取待聚类轨迹数据,对所述待聚类轨迹数据进行数据增广得到第一增广数据集合和第二增广数据集合;其中,各待聚类轨迹数据包括多个轨迹点,各所述轨迹点包括时间信息和位置信息;将所述第一增广数据集合输入到训练好的轨迹编码模型中得到轨迹编码向量,将所述第二增广数据集合输入到轨迹动量编码模型中得到轨迹动量编码向量;基于所述轨迹编码向量确定聚类中心,基于各所述轨迹编码向量以及所述聚类中心确定所述第一增广数据集合中各轨迹数据对应的第一类别概率分布,基于所述第一增广数据集合中各轨迹数据对应的第一类别概率分布计算第一目标分布,基于各所述轨迹动量编码向量以及所述聚类中心确定所述第二增广数据集合中各轨迹数据对应的第二类别概率分布,基于所述第二增广数据集合中各轨迹数据对应的第二类别概率分布计算第二目标分布;基于所述第一类别概率分布、第一目标分布、第二类别概率分布以及第二目标分布计算KL散度对比学习损失;基于第一前馈神经网络分别确定所述轨迹编码向量和所述轨迹动量编码向量对应的第一投影向量和第二投影向量,基于所述第一投影向量和第二投影向量计算轨迹投影向量对比损失;基于第二前馈神经网络分别确定所述轨迹编码向量和所述轨迹动量编码向量对应的第一轨迹预测向量和第二轨迹预测向量,基于所述第一轨迹预测向量和第二轨迹预测向量计算轨迹类别对比损失;基于轨迹编码模型损失、所述KL散度对比学习损失、轨迹投影向量对比损失以及轨迹类别对比损失确定总模型损失,基于所述总模型损失迭代更新所述轨迹编码模型和聚类中心,并基于最后一次迭代过程中获得的所述轨迹编码向量及聚类中心对所述待聚类轨迹数据进行聚类。2.根据权利要求1所述的深度轨迹聚类方法,其特征在于,所述方法还包括:构建初始轨迹编码模型;基于交叉熵损失函数计算轨迹编码模型的空间位置预测损失和被遮蔽轨迹点时间预测损失,基于所述空间位置预测损失和被遮蔽轨迹点时间预测损失确定所述轨迹编码模型损失;基于所述轨迹编码模型损失更新所述初始轨迹编码模型的模型参数得到训练好的轨迹编码模型。3.根据权利要求1所述的深度轨迹聚类方法,其特征在于,所述数据增广包括:对所述待聚类轨迹数据进行稀疏化操作;或为所述待聚类轨迹数据添加位置噪声或时间噪声;或对所述待聚类轨迹数据进行插值操作。4.根据权利要求1所述的深度轨迹聚类方法,其特征在于,所述轨迹编码模型和所述轨迹动量编码模型均为BERT模型;其中,所述轨迹动量编码模型的参数基于所述轨迹编码模型的参数进行动量更新,且所述轨迹动量编码模型的参数计算公式为:
θ2=mθ2+(1

m)θ1;θ1、θ2分别为轨迹编码模型和轨迹动量编码模型的模型参数,m为动量参数。5.根据权利要求1所述的深度轨迹聚类方法,其特征在于,第一目标分布或第二目标分布的计算公式为:其中,p
i,j

【专利技术属性】
技术研发人员:司俊俊羊晋李莉项阳陈泽江刘智超刘孟奇涂波
申请(专利权)人:和智信山东大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1