当前位置: 首页 > 专利查询>长安大学专利>正文

一种基于复合元路径的相似出行者识别方法技术

技术编号:18399657 阅读:381 留言:0更新日期:2018-07-08 19:53
一种基于复合元路径的相似出行者识别方法,使用时空GPS轨迹构造异构出行网络模型,提出出行元路径的定义。在出行网络模型中选取元路径集合,采用出行相似性度量算法实现用户相似性计算,预测两个用户在出行行为的上相似性。本发明专利技术提出的采用复合元路径的相似性计算方法比基于单条元路径方法的查全率与查准率高,且有直观的可理解语义性,有助于准确地发现潜在用户和相似群体,为他们提供更加精准和差异化的服务。

【技术实现步骤摘要】
一种基于复合元路径的相似出行者识别方法
本专利技术属于行为识别领域,具体涉及一种基于复合元路径的相似出行者识别方法。
技术介绍
随着智能手机的流行以及各种多样化定位设备的广泛使用,对用户各种出行数据的获取变得更加地实时、容易和准确。因此,关于用户出行问题的研究快速发展,例如出行群体的发现、交通服务推荐、基于位置的社交网络、路线规划等相关工作的研究。同时,通过研究用户的出行可以给用户提供更好的出行体验和出行服务。大数据的研究以及智能设备的出现使得出行相似性得到很多的关注。在用户出行的相似性研究里,主要的问题是出行的特征选择和怎么解决用户兴趣点矩阵的稀疏性。由于用户在出行过程中会产生大量的、具有时空标记、能描述出行行为的空间大数据,如出租车运营数据、手机数据、社交媒体数据等。这些数据有助于发现用户出行的时空特征,并建立合适的解释模型。然而由于缺乏对这些特征之间关系的研究,难以构建全面完整的出行模型。而专门研究连接关系的空间异构信息网络能为表面上看起来杂乱无章的交通出行过程提供有效的分析方法。通过利用时间信息(出行开始时间、停留时间等)、位置信息(地点名,经纬度等)以及服务等多种类型的信息,构建一个异构出行网络,用于推理语义关系以及预测行程。鉴于城市交通出行的复杂性,现有研究较多关注对某个属性的独立建模与识别,尽管允许多次融合多个属性,但由于缺乏对多属性语义关系的挖掘研究,模型仅是对最终属性进行推断,可能会遗漏由于不同属性关联而产生的相似关系,从而降低提供服务的准确性。
技术实现思路
针对现有相似性度量方法的弊端,本专利技术的目的是提出一种基于复合元路径的相似出行者识别方法。本专利技术采用异构信息网络中的元路径理论,建立出行者的兴趣点特征模型,形成基于(用户,停留点)、(停留点,出行时间序列)、(停留点,服务)等特征模型。结合机器学习中的逻辑回归模型,分析特征间关系,推理用户间的相似程度,为未来投放优质出行服务提供支撑。为实现上述目的,本专利技术采用如下的技术方案:一种基于复合元路径的相似出行者识别方法,包括以下步骤:步骤一:对GPS数据进行预处理,包括位置停留点聚类识别、时间序列化模糊处理以及访问服务语义扩展,转换成包括出行用户编号、用户出行时间段、用户停留点位置,以及停留点访问类型的数据;步骤二:对异构信息网络进行扩展,得到异构出行网络模型,并且采用用户、用户停留点、停留点访问类型、出行时间段作为异构出行网络模型节点;步骤三:构造小于4个节点数的出行元路径,由小于4个节点数的出行元路径构成对称元路径集;步骤四:通过计算异构出行网络模型中元路径特征,通过出行相似性度量算法确定出行行为的相似度。本专利技术进一步的改进在于,异构出行网络模型的边缘是在节点类型之间构建的,节点之间的语义关系分别为:连接用户和停留点,表明用户停留在一个确定的地方;连接停留点和服务,表明用户在停留点访问的服务类型;连接停留点和时间,表明用户停留在停留点的时间段。本专利技术进一步的改进在于,异构出行网络模型采用六元组TN=<U,L,S,T,E,W>表示,其中:(1)U={u1,u2,…,un}为出行用户节点集合;(2)L={l1,l2,…,lm}为停留点节点集合;(3)S={s1,s2,…,s21}为在停留点访问服务的类型集合;(4)T={t1,t2,t3,t4}为出行时间序列集合;(5)E={Eul∪Els∪Elt})是异构出行网络模型中所有边的集合,其中,Eul={e(u,l)|u∈U,l∈L}描述了用户与地点之间的语义关系,即用户在地点停留;Els={e(l,s)|l∈L,s∈S},其蕴含了地点与服务种类之间的语义联系,即用户在地点停留且使用其提供的服务种类;Elt={e(l,t)|l∈L,t∈T}描述了时间段与地点之间的语义关系,即用户在时间段内停留;(6)W={Wul∪Wls∪Wlt}是异构出行网络模型中边的权值集合,其中,Wul=ω(e(u,l))度量了用户出现在某个停留点的次数;Wls=ω(e(l,s))标识停留点提供的服务种类个数;Wlt=ω(e(l,t))确定在一个时间段内出现的停留点个数。本专利技术进一步的改进在于,步骤四的具体过程如下:首先,通过样本训练确定出行用户x与y的相似状态,然后根据步骤三得到的对称元路径集mPsym={ULU,ULSLU,ULTLU},利用Pathsim方法产生元路径集上的一个特征向量基于逻辑回归模型可知,两个用户的相似性预测结果如公式(2)其中,向量Y代表训练集中的用户x与y的相似性,其值为0或1,0代表不相似,1代表相似。利用Pathsim方法产生元路径集上的特征向量中的一个特征值PWx,y(mp)的具体过程如下:采用如下式(1)得到:其中,Px-y表示用户x与y之间的元路径数,Px-x,Py-y分别表示x,y与连接自身之间的元路径数;Eul(x,L)与Eul(y,L),分别表示x和y到达特定地点L的元路径集合,Wul(x,L)与Wul(y,L)为其相应权值;Eul(x,L)∩Eul(y,L)表示x与y到达相同地点的元路径集合;i和j分别表示x和y访问特定位置的次数。与现有技术相比,本专利技术的有益效果在于:与现有分析方法不同,本专利技术使用时空GPS轨迹构造异构出行网络模型,提出出行元路径。在出行网络模型中选取对称元路径集合,采用出行相似性度量算法实现用户间的相似性计算,预测两个用户在出行行为的上相似性。本专利技术提出的采用复合元路径的相似性计算方法比基于单条元路径方法的查全率与查准率高,且有直观的可理解语义性,有助于准确地发现潜在用户和相似群体,为他们提供更加精准和差异化的服务。进一步的,通过改进现有的Pathsim方法,采用多条元路径计算用户相似性,比采用单一元路径的算法性能更好,其查全率和查准率更高。附图说明图1为异构出行网络模型的拓扑结构图。具体实施方式以下结合附图对本专利技术提出的相似出行者识别方法进行具体说明。步骤一:数据处理,前期对数据进行预处理工作,包括位置停留点聚类识别、时间序列化模糊处理、访问服务语义扩展等,转换成所需要的格式;经典异构信息网络一般定义为三元组G=<V,E,A>,其中V是具有不同性质的节点集合,包括不同的主体对象。E是边集合,描述不同主体对象之间的多种语义关联,A是节点类型集合,代表主体对象所属的类型。该网络允许为多种类型的节点建立其之间的复杂关系。本专利技术中将原始的GPS数据具体处理成包括出行用户编号、用户出行时间段、用户停留点位置,以及停留点访问类型;其中,出行时间段是按照一定的时间间隔将一天24小时划分为四个时段,具体为{<00:00:00,07:00:00>、<07:00:00,12:00:00>、<12:00:00,19:00:00>、<19:00:00,24:00:00>}。停留点访问类型即服务类包括21个种类,例如教育培训、购物以及文化传媒等。停留点位置有如圆明园遗址公园、清华大学、黄村医院南院、东贸国际等1000多个不同的位置。具体的,本专利技术采用微软轨迹数据集。提取了3891个停留点,然后执行数据清理本文档来自技高网...

【技术保护点】
1.一种基于复合元路径的相似出行者识别方法,其特征在于,包括以下步骤:步骤一:对GPS数据进行预处理,包括位置停留点聚类识别、时间序列化模糊处理以及访问服务语义扩展,转换成包括出行用户编号、用户出行时间段、用户停留点位置,以及停留点访问类型的数据;步骤二:对异构信息网络进行扩展,得到异构出行网络模型,并且采用用户、用户停留点、停留点访问类型、出行时间段作为异构出行网络模型节点;步骤三:构造小于4个节点数的出行元路径,由小于4个节点数的出行元路径构成对称元路径集;步骤四:通过计算异构出行网络模型中元路径特征,通过出行相似性度量算法确定出行行为的相似度。

【技术特征摘要】
1.一种基于复合元路径的相似出行者识别方法,其特征在于,包括以下步骤:步骤一:对GPS数据进行预处理,包括位置停留点聚类识别、时间序列化模糊处理以及访问服务语义扩展,转换成包括出行用户编号、用户出行时间段、用户停留点位置,以及停留点访问类型的数据;步骤二:对异构信息网络进行扩展,得到异构出行网络模型,并且采用用户、用户停留点、停留点访问类型、出行时间段作为异构出行网络模型节点;步骤三:构造小于4个节点数的出行元路径,由小于4个节点数的出行元路径构成对称元路径集;步骤四:通过计算异构出行网络模型中元路径特征,通过出行相似性度量算法确定出行行为的相似度。2.根据权利要求1所述的一种基于复合元路径的相似出行者识别方法,其特征在于,异构出行网络模型的边缘是在节点类型之间构建的,节点之间的语义关系分别为:连接用户和停留点,表明用户停留在一个确定的地方;连接停留点和服务,表明用户在停留点访问的服务类型;连接停留点和时间,表明用户停留在停留点的时间段。3.根据权利要求1所述的一种基于复合元路径的相似出行者识别方法,其特征在于,异构出行网络模型采用六元组TN=<U,L,S,T,E,W>表示,其中:(1)U={u1,u2,…,un}为出行用户节点集合;(2)L={l1,l2,…,lm}为停留点节点集合;(3)S={s1,s2,…,s21}为在停留点访问服务的类型集合;(4)T={t1,t2,t3,t4}为出行时间序列集合;(5)E={Eul∪Els∪Elt})是异构出行网络模型中所有边的集合,其中,Eul={e(u,l)|u∈U,l∈L}描述了用户与地点之间的语义关系,即用户在地点停留...

【专利技术属性】
技术研发人员:唐蕾赵亚玲陈君杨祎祯贾景池
申请(专利权)人:长安大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1