一种基于生成对抗网络的轨迹数据分类方法技术

技术编号:19009572 阅读:291 留言:0更新日期:2018-09-22 09:23
本发明专利技术公开了一种基于生成对抗网络的轨迹数据分类方法,首先将真实轨迹数据输入生成对抗网络,使生成对抗网络训练至生成器生成与真实轨迹数据分布相同的仿真轨迹数据;然后利用生成对抗网络的生成器生成若干组仿真轨迹数据;最好对生成的若干组仿真轨迹数据与真实轨迹数据一起进行分类处理,得到轨迹用户映射。本发明专利技术通过生成对抗网络可以模拟真实轨迹数据的分布,以生成的仿真轨迹数据和真实轨迹数据一起作为轨迹数据分类的数据源,对轨迹数据进行分类,可以有效解决数据稀疏问题,避免稀疏轨迹数据对轨迹数据分类产生的负面影响;由于稀疏轨迹数据也存在相应的轨迹用户映射,因此能够实现对稀疏轨迹数据分类有助于提高数据分类效果。

A classification method of trajectory data based on generation of confrontation network

The invention discloses a trajectory data classification method based on generating antagonistic network. Firstly, the real trajectory data is input into generating antagonistic network, and the generated antagonistic network is trained to generate the simulation trajectory data with the same distribution as the real trajectory data by the generator. Then, several groups of simulation are generated by the generator of generating antagonistic network. Trajectory data; it is better to classify and process several groups of simulated trajectory data together with real trajectory data to get trajectory user mapping. The invention can simulate the distribution of real trajectory data by generating confrontation network, and classifies the trajectory data by using the generated simulation trajectory data and the real trajectory data as the data source of trajectory data classification, thus effectively solving the problem of data sparsity and avoiding the negative effect of sparse trajectory data on trajectory data classification. Because sparse trajectory data also have corresponding trajectory user mapping, it is helpful to classify sparse trajectory data.

【技术实现步骤摘要】
一种基于生成对抗网络的轨迹数据分类方法
本专利技术属于机器学习中的深度学习领域,涉及一种基于机器学习的轨迹数据方法,尤其涉及一种基于对抗学习进行数据增强,从而提升轨迹数据分类效果的数据处理方法。
技术介绍
随着人类生活中智能手机、可穿戴智能设备的普及,越来越多的基于位置的社交网络(LBSNs)数据被挖掘。对这些数据按照用户进行分类是一个非常重要的研究方向,分类的结果对广告或地点用户的精准推荐,甚至对于追踪失踪人口都有巨大的用处。传统的机器学习方法使用SVM、LDA、LCSS等算法对数据进行分类。而当今社会是一个大数据的时代,在海量数据的前提下,传统机器学习算法对于计算机内存的消耗让很多计算机设备难以承受,而深度学习不仅可以轻松地处理海量的数据,并且还可以达到优于传统机器学习算法的效果。使用循环神经网络(RNN)或者其变体长短期记忆网络(LSTM)将轨迹按用户类别进行分类(如图1所示),达到的分类效果要好于传统的机器学习算法,具体处理过程如下:将进行预处理(包括删除过长数据和删除数据量较少的用户)后的轨迹数据,例如图1中的T11(用户1的第一条轨迹)、T21(用户1的第二条轨迹)、T12(用户2的第一条轨迹)、T22(用户2的第二条轨迹)……;使用Word2vec技术进行词向量的转换,将离散的轨迹点转化为连续空间中的向量(这些向量中包含了数据的上下文信息,也就代表了原始数据之间的关系),处理后的轨迹向量可以正确表示出原有轨迹数据中前一轨迹点和后一轨迹点之间的某种联系;再将向量化的数据输入到循环神经网络(RecurrentNeuralNetwork,RNN)中,从循环神经网络中输出的信息输入到一个全连接层中,通过使用softmax激活函数进行分类操作,便得到了该轨迹所属的用户ID【Q.Gao,F.Zhou,K.Zhang,G.Trajcevski,X,Luo,andF.Zhang,“IdentifyingHumanMobilityviaTrajectoryEmbeddings”2016】。对于当今社会产生的海量数据而言,即使上述轨迹分类方法没有包含调参等步骤,深度学习达到的效果已经优于传统的机器学习算法。深度学习对比传统机器学习方法的优点是可以更加有效地处理海量数据,然而真实的轨迹数据集中,有些用户的轨迹数据丰富,而另一些用户的轨迹数据却很稀疏。在稀疏的数据上不足以体现出深度学习的优势,甚至会对神经网络的训练造成负面影响。因此对轨迹数据进行预处理是为了去除稀疏数据对神经网络训练带来的负面影响。然而去除稀疏轨迹数据必然影响对真实轨迹数据的分类效果,从而影响其在实际生活中的应用。因此为了使深度学习真正意义上地可以应用在实际生活的问题中,必须处理好稀疏数据对神经网络带来的负面影响,而不仅仅是删除它们。
技术实现思路
本专利技术的目的旨在克服现有技术中轨迹数据分类方法存在的难以对稀疏数据进行有效分类的缺陷,提供一种基于生成对抗网络的轨迹数据分类方法,以解决因真实轨迹数据稀疏性对神经网络训练带来的负面影响,提高深度学习对轨迹数据的分类效果,从而更加适用于实际应用。本专利技术的基本思路为,利用基于生成对抗网络对稀疏真实轨迹数据分布进行模拟,根据模拟分布生成若干组仿真轨迹数据,从而减少轨迹数据的稀疏性,提升轨迹数据的密集度,从而更好的为训练分类提供基础数据,使轨迹分类效果得到进一步提高。基于上述专利技术思路,本专利技术提供的基于生成对抗网络的轨迹数据分类方法,包括以下步骤:S1,将真实轨迹数据输入生成对抗网络,使生成对抗网络训练至生成器生成与真实轨迹数据同分布的仿真轨迹数据;S2,利用生成对抗网络的生成器生成若干组仿真轨迹数据;S3,对生成的若干组仿真轨迹数据与真实轨迹数据一起进行分类处理,得到轨迹用户映射。上述基于生成对抗网络的轨迹数据分类方法,所述步骤S1的目的在于,生成对抗网络通过对来自数据集的真实轨迹数据进行学习和训练,能够生成与真实轨迹数据分布相似,与真实轨迹数据无法通过鉴别器区分的仿真轨迹数据。生成对抗网络包括生成器和鉴别器,生成器和鉴别器相互对抗;鉴别器的作用在于区分真实轨迹数据和仿真轨迹数据;生成器的作用在于通过参数(例如权重)优化,生成可以迷惑鉴别器的仿真轨迹数据;当鉴别器无法再分辨出真实轨迹数据和仿真轨迹数据时,则认为此时生成器生成的仿真轨迹数据已经符合要求,达到了一个很好的仿真效果。该步骤S1具体包括以下分步骤:S11,将从高斯分布中采样的随机噪音作为输入数据输入到生成对抗网络的生成器,生成一组仿真轨迹数据;S12,生成器输出的仿真轨迹数据与真实轨迹数据一起输入到生成对抗网络的鉴别器中,鉴别器对仿真轨迹数据和真实数据进行鉴别,得到鉴别结果;并根据鉴别结果分别计算得到生成器损失函数值和鉴别器损失函数值;S13,判断得到的生成器损失函数值和鉴别器损失函数值是否趋于稳定,若趋于稳定,则进入步骤S2;若没有趋于稳定,则进入步骤S14;S14,将得到的生成器损失函数值和鉴别器损失函数值分别返回至生成器和鉴别器,并利用生成器损失函数值和鉴别器损失函数值分别对生成器和鉴别器的参数进行修正,之后返回步骤S11。上述基于生成对抗网络的轨迹数据分类方法,所述步骤S11在于利用生成器的网络模型生成一组仿真轨迹数据,具体包括以下分步骤:S111,将从高斯分布中采样的随机噪音作为输入数据输入到生成器的网络模型中,产生一组数据;S112,将步骤S111产生的一组数据压缩至-1到1之间;S113,将得到的压缩数据作为符合真实轨迹数据向量维度的随机化生成向量,同时将来自数据集的真实轨迹数据进行向量化,得到真实轨迹数据对应的向量;S114,分别计算每一条随机化生成向量与真实轨迹数据对应的向量之间的余弦夹角;S115,遍历得到的余弦夹角,找出与真实轨迹数据对应的向量夹角之差最小的随机生成向量,构成仿真向量;S116,将步骤S115得到的仿真向量还原成真实轨迹数据中相应的轨迹点,得到仿真轨迹数据。上述基于生成对抗网络的轨迹数据分类方法,本专利技术中,所述生成器的网络模型为长短期记忆网络(Long-ShortTermMemory,LSTM)。为了防止过拟合的发生,所述长短期记忆网络的每一层神经网络增加dropout机制。上述生成对抗网络的轨迹数据分类方法,所述步骤S112中,利用tanh激活函数将步骤S111产生的一组数据压缩至-1到1之间,以便于模拟原始数据使用Word2vec技术将得到的压缩数据进行向量化。上述生成对抗网络的轨迹数据分类方法,由于轨迹中所存在的都是真实的经纬度定位的地点,不能是凭空捏造新的地点,因此需要从步骤S113得到的随机化生成向量中找到与真实轨迹数据对应向量最接近的向量,并将其还原成相应的真实轨迹数据点(真实的经纬度)。通过步骤S114至步骤S116,可以从生成器生成的数据中找出与真实轨迹数据中的数据点相同的数据,从而组成一组仿真轨迹数据。上述生成对抗网络的轨迹数据分类方法,所述步骤S12具体实现方式为:将生成器输出的仿真轨迹数据与真实轨迹数据进行向量化处理,向量化后的数据输入到鉴别器的网络模型中,提取出仿真轨迹数据和真实轨迹数据的向量特征;根据得到的向量特征得到鉴别结果。这里的向量特征不仅包括具有真实经纬度的地点数据,还包本文档来自技高网
...
一种基于生成对抗网络的轨迹数据分类方法

【技术保护点】
1.一种基于生成对抗网络的轨迹数据分类方法,其特征在于包括以下步骤:S1,将真实轨迹数据输入生成对抗网络,使生成对抗网络训练至生成器生成与真实轨迹数据同分布的仿真轨迹数据;S2,利用生成对抗网络的生成器生成若干组仿真轨迹数据;S3,对生成的若干组仿真轨迹数据与真实轨迹数据一起进行分类处理,得到轨迹用户映射。

【技术特征摘要】
1.一种基于生成对抗网络的轨迹数据分类方法,其特征在于包括以下步骤:S1,将真实轨迹数据输入生成对抗网络,使生成对抗网络训练至生成器生成与真实轨迹数据同分布的仿真轨迹数据;S2,利用生成对抗网络的生成器生成若干组仿真轨迹数据;S3,对生成的若干组仿真轨迹数据与真实轨迹数据一起进行分类处理,得到轨迹用户映射。2.根据权利要求1所述基于生成对抗网络的轨迹数据分类方法,其特征在于所述步骤S1包括以下分步骤:S11,将从高斯分布中采样的随机噪音作为输入数据输入到生成对抗网络的生成器,生成一组仿真轨迹数据;S12,生成器输出的仿真轨迹数据与真实轨迹数据一起输入到生成对抗网络的鉴别器中,鉴别器对仿真轨迹数据和真实数据进行鉴别,得到鉴别结果;并根据鉴别结果分别计算得到生成器损失函数值和鉴别器损失函数值;S13,判断得到的生成器损失函数值和鉴别器损失函数值是否趋于稳定,若趋于稳定,则进入步骤S2;若没有趋于稳定,则进入步骤S14;S14,将得到的生成器损失函数值和鉴别器损失函数值分别返回至生成器和鉴别器,并利用生成器损失函数值和鉴别器损失函数值分别对生成器和鉴别器的参数进行修正,之后返回步骤S11。3.根据权利要求2所述基于生成对抗网络的轨迹数据分类方法,其特征在于所述步骤S11包括以下分步骤:S111,将从高斯分布中采样的随机噪音作为输入数据输入到生成器的网络模型中,产生一组数据;S112,将步骤S111产生的一组数据压缩至-1到1之间;S113,将得到的压缩数据作为符合真实轨迹数据向量维度的随机化生成向量,同时将来自数据集的真实轨迹数据进行向量化,得到真实轨迹数据对应的向量;S114,分别计算每一条随机化生成向量与真实轨迹数据对应的向量之间的余弦夹角;S115,遍历得到的余弦夹角,找出与真实轨迹数据对应的向量夹角之差最小的随机生成向量,构成仿真向量;S116,将步骤S115得到的仿真向量还原成真实轨迹数据中相应的轨迹点,得到...

【专利技术属性】
技术研发人员:周帆殷睿阳钟婷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1