一种基于流式大数据的同行车辆发现方法技术

技术编号:19010181 阅读:38 留言:0更新日期:2018-09-22 09:55
本发明专利技术请求保护一种基于流式大数据的同行车辆发现方法,包括步骤:首先,针对卡口车流量和分支数量进行聚类,通过得到的卡口类簇对卡口进行角色标识,验证了卡口车流量的幂律性。其次,在流式数据的基础上引入Spark‑streaming时间滑动窗口,根据行车轨迹得到车辆之间的上下文环境,完成对同行语料库的创建和完善。最后提出PDGC(plate‑number dynamic graph computing)算法,基于动态语料库和卡口角色标识建立车辆之间的动态关系图,把卡口角色作为影响因子和车辆之间的图进行关联,通过实时对车辆关系图的剪边和对同行车辆之间边权重的计算得到同行车组。有效降低了数据处理的复杂度。能够实时发现同行车辆组,不仅可以用于搜索相似轨迹,也可通过计算车辆图顶点的出度和入度来挖掘到跟踪车辆。

A peer based vehicle discovery method based on streaming data

The invention requests protection of a peer-to-peer vehicle discovery method based on large flow data, including steps: firstly, clustering the traffic flow and the number of branches at the entrance of the entrance, and identifying the role of the entrance of the entrance through the class cluster of the entrance of the entrance, thus verifying the power law of the traffic flow at the entrance of the entrance. Secondly, the Spark_streaming time sliding window is introduced on the basis of the streaming data, and the context between vehicles is obtained according to the trajectory of the vehicle, so as to complete the creation and improvement of the peer corpus. Finally, the PDGC (plate_number dynamic graph computing) algorithm is proposed. Based on the dynamic corpus and the card role identification, the dynamic relationship graph between vehicles is established. The card role is used as the influence factor to correlate with the graph between vehicles. The edge cutting of the car relationship graph and the calculation of the edge weight between the same vehicles are carried out in real time. Get the same group. The complexity of data processing is effectively reduced. It can be used not only to search the similar trajectory, but also to mine the tracking vehicle by calculating the exit and entry of the vertex of the vehicle graph.

【技术实现步骤摘要】
一种基于流式大数据的同行车辆发现方法
本专利技术属于大数据挖掘领域,主要是涉及智能交通领域,尤其是一种基于大数据的同行车辆发现方法。
技术介绍
随着移动设备和识别技术的进步,大量的轨迹数据被记录下来,这些数据被集中用于轨迹聚类、交通管理、离群点检测、兴趣区域、隐私保护、位置推荐等方面。轨迹数据来源有两类,一种来自外部设备:卡口探头拍摄的移动对象信息数据,这种数据记录了移动对象的特征。另外一种轨迹数据是移动对象自己产生的:行人身上的移动设备产生的定位数据,车辆自带设备产生的GPS数据,包括移动对象的位置信息等数据。人们期望通过轨迹数据发现与特定对象一起移动的团体,即同行团体。例如,对动物轨迹研究可以让科学家们发现物种迁移的规律;对车辆轨迹的研究可以发现同行车组,应用到交通管理,公安治理和军事监视等领域。本文基于一种特殊的流式时空数据,即ANPR(车牌自动识别)数据建立模型来实时挖掘同行车组。当前,对于同行车辆挖掘问题主要集中在两个方向:(1)基于GPS轨迹数据获得同行车辆组,针对GPS数据进行同行车辆挖掘主要通过几种途径:基于轨迹相似性运用聚类算法得到同行车组;限制车辆之间的地理距离和一起移动的时间。(2)基于卡口探头拍摄数据挖掘同行车组。这种数据通常以流的形式传输到数据中心,用于进一步的分析和挖掘。一些学者处理流式数据,通过密度聚类尝试实时得到同行团体。还有部分学者采用分布式处理框架Hadoop和Spark,实现了频繁项集挖掘算法的并行化,并对频繁项集挖掘算法进行了优化。但是,实时发现同行车辆组属于动态挖掘问题,频繁项集的计算在静态数据集上效果更好,对于动态计算,由于需要不断重新进行项集挖掘,过多的I/O操作导致计算成本的增加。尽管以上研究通过不同角度建立了同行车辆挖掘模型,对同行车辆的挖掘做出了很大贡献,同行车辆挖掘目前还存在一些挑战:·GPS数据由安装在车辆上的GPS设备按照固定的时间间隔产生并回传,没有安装GPS设备或者设备没有开启的车辆不会产生GPS数据。在某些特殊场合下,如车辆跟踪、犯罪嫌疑人出逃等,嫌疑人通常会关闭甚至拆掉GPS设备,这使得基于GPS数据实现的车辆同行模式发现方法无法满足上述场景的需求。·一些学者通过ANPR数据挖掘同行车辆组,然而他们大多处理的数据集都是静态的历史数据,有些方法需要多次扫描。不能满足现实中需要实时得到结果,因此,仍然希望提供高质量但成本较低的技术用于同行车辆实时发现。·轨迹是以数据流的形式产生的。处理大量短时间迅速到达的数据需要高计算开销,现应应该开发能够有效处理这种数据结构的算法。近几年,图计算已变得越来越流行,这在社交计算,网络搜索,自然语言处理和推荐系统等广泛应用的领域中得到了证明。高效结构化编程模型发展了许多图计算框架,他们通常遵循通过编码图形来处理顶点并行和边之间的通信,数据流的计算和存储消耗大量资源。而图结构可以降低数据存储的复杂度,因为它相比于结构化数据更简单更自然的保存了数据之间的联系。本文针对图计算的特点,提出了一种动态的图计算方法来对流数据进行实时处理,即PDGC动态图计算算法。该算法能够实时生成行驶在道路上的车辆关系图,通过实时剪枝可以有效降低数据流处理过程中的复杂度,我们还对卡口处理为向量形式并对卡口进行了聚类,将卡口角色加入图计算模型中可以进一步降低数据处理的复杂度。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种降低图计算过程中的复杂度、能够实时发现同行车辆组的基于流式大数据的同行车辆发现方法。本专利技术的技术方案如下:一种基于流式大数据的同行车辆发现方法,其包括以下步骤:S1:获取卡口摄像头拍摄的行驶在路上的车辆的数据,生成数据集;S2:提取相关属性,从获取到的数据集中提取同行车辆最密切的特征:包括车牌号、时间及卡口,将提取到的特征作为动态图计算的输入特征;S3:对卡口进行角色划分,卡口角色划分主要是通过车辆行驶轨迹得到的卡口属性作为聚类条件,通过聚类算法得到卡口类簇进而对卡口进行角色划分,同行车组经过不同类别卡口后,它们之间的权重得到不同程度的增加,卡口角色划分作为外部因子参与到动态图计算过程;S4:获取动态车牌数据集,将用于实验的ANPR数据通过高吞吐量的分布式发布订阅消息系统Kafka处理为流式数据,根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制,对特征信息进行时间切片化处理建立动态数据集;S5:根据动态车牌数据集建立动态图计算模型,用权重、出度、入度表示车辆车辆节点之间的关系,车辆实时轨迹用动态图进行表示,在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算在内的步骤挖掘得到同行车辆组。进一步的,所述步骤S1获取卡口摄像头拍摄的行驶在路上的车辆的数据,生成数据集,具体包括:S11:获取数据,提取卡口摄像头采集的行驶车辆的所有数据;S12:对数据进行时间分片,根据“时间”字段,对每辆车的所有数据进行划分,考虑到同行车辆的特点,统计同一卡口在设定阈值间隔中的过车数量,其中,同行车辆组指的是两个或多个移动对象在短时间阈值内共同经过多个卡口的车辆组。进一步的,所述步骤S2提取相关属性,主要分以下2个步骤。S21:提取相关属性。从获取到的数据集中提取同行车辆最密切的特征:车牌号、时间、卡口;S22:将提取到的属性根据时间维度进行序列化,获得每辆车的轨迹Tracev,通过轨迹得到卡口的分支数量,通过统计经过卡口的次数可以得到卡口特定时间段的车流量。进一步的,所述步骤S3对卡口进行角色划分,主要分以下4个步骤。S31:通过车辆轨迹Tracev得到基于卡口的路网流量图,图中的节点代表卡口,卡口之间的连线形成边;S32:构造图G的邻接矩阵A,转移矩阵S,计算图G的转移矩阵P,且0<β<1为衰减因子,N为卡口图中节点的数量,U为N阶矩阵,且Uij=1;S33:求解矩阵P的特征向量q=Pq,当q不断迭代到最终收敛时,得到终解q,节点v的PageRank值即为特征向量q中对应维的值,采用社团中的每个点在社团内外的重要性来量化节点在所属社团的内部影响力和外部影响力,这两个影响力值构成节点的影响力二维坐标Inner值和Outter值;S34:根据Inner和Outter值对卡口进行Kmens聚类,得到卡口类簇,据此划分卡口角色。进一步的,所述步骤S4获取动态车牌数据集具体包括:S41:流式数据从交通探头拍摄,包含车辆信息的数据通过时间批间隔传输到操作平台;S42:利用Sparkstreaming处理数据,利用公式:动态调整批间隔,优化批间隔选择的时间,Ftr表示卡口的车流量,α表示动态系数;S43:对批间隔数据进行操作,根据时间轴加入时间窗口函数,对卡口角色,车牌进行组合处理,在一个时间窗口内经过同一个卡口的车辆被判定为同行车组关系,通过不断对流数据进行处理实时发现同行车组。进一步的,所述步骤S5建立动态图计算模型,主要分以下3个步骤:S51:通过处理后的RDD构造加权定向图G(V、E)的顶点V和边E,每个顶点vi∈V代表一个车牌号,顶点属性是聚类得到的卡口类别,边e∈E代表在给定的源vs和其对应的目标车辆之间的定向关联,每个边上的w权重是在两个顶点之间绘制边的次数;S52:动态图构造之后,遍历查询本文档来自技高网
...
一种基于流式大数据的同行车辆发现方法

【技术保护点】
1.一种基于流式大数据的同行车辆发现方法,其特征在于,包括以下步骤:S1:获取卡口摄像头拍摄的行驶在路上的车辆的数据,生成数据集;S2:提取相关属性,从获取到的数据集中提取同行车辆最密切的特征:包括车牌号、时间及卡口,将提取到的特征作为动态图计算模型的输入特征;S3:对卡口进行角色划分,卡口角色划分主要是通过车辆行驶轨迹得到的卡口属性作为聚类条件,通过聚类算法得到卡口类簇进而对卡口进行角色划分,同行车组经过不同类别卡口后,它们之间的权重得到不同程度的增加,卡口角色划分作为外部因子参与到动态图计算过程;S4:获取动态车牌数据集,将用于实验的自动车牌识别数据通过高吞吐量的分布式发布订阅消息系统Kafka处理为流式数据,根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制,对特征信息进行时间切片化处理建立动态数据集;S5:根据动态车牌数据集建立动态图计算模型,用权重、出度、入度表示车辆车辆节点之间的关系,车辆实时轨迹用动态图进行表示,在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算在内的步骤挖掘得到同行车辆组。

【技术特征摘要】
1.一种基于流式大数据的同行车辆发现方法,其特征在于,包括以下步骤:S1:获取卡口摄像头拍摄的行驶在路上的车辆的数据,生成数据集;S2:提取相关属性,从获取到的数据集中提取同行车辆最密切的特征:包括车牌号、时间及卡口,将提取到的特征作为动态图计算模型的输入特征;S3:对卡口进行角色划分,卡口角色划分主要是通过车辆行驶轨迹得到的卡口属性作为聚类条件,通过聚类算法得到卡口类簇进而对卡口进行角色划分,同行车组经过不同类别卡口后,它们之间的权重得到不同程度的增加,卡口角色划分作为外部因子参与到动态图计算过程;S4:获取动态车牌数据集,将用于实验的自动车牌识别数据通过高吞吐量的分布式发布订阅消息系统Kafka处理为流式数据,根据ANPR数据流中的移动对象的特征信息引入滑动时间窗口机制,对特征信息进行时间切片化处理建立动态数据集;S5:根据动态车牌数据集建立动态图计算模型,用权重、出度、入度表示车辆车辆节点之间的关系,车辆实时轨迹用动态图进行表示,在实时计算过程中通过引入卡口角色对车辆之间形成的动态图进行剪枝、权重计算在内的步骤挖掘得到同行车辆组。2.根据权利要求1所述的一种基于流式大数据的同行车辆发现方法,其特征在于,所述步骤S1获取卡口摄像头拍摄的行驶在路上的车辆的数据,生成数据集,具体包括:S11:获取数据,提取卡口摄像头采集的行驶车辆的所有数据;S12:对数据进行时间分片,根据“时间”字段,对每辆车的所有数据进行划分,考虑到同行车辆的特点,统计同一卡口在设定阈值间隔中的过车数量,其中,同行车辆组指的是两个或多个移动对象在短时间阈值内共同经过多个卡口的车辆组。3.根据权利要求1所述的一种基于流式大数据的同行车辆发现方法,其特征在于,所述步骤S2提取相关属性,主要分以下2个步骤。S21:提取相关属性。从获取到的数据集中提取同行车辆最密切的特征:车牌号、时间、卡口;S22:将提取到的属性根据时间维度进行序列化,获得每辆车的轨迹Tracev,通过轨迹得到卡口的分支数量,通过统计经过卡口的次数可以得到卡口特定时间段的车流量。4.根据权利要求3所述的一种基于流式大数据的同行车辆发现方法,其特征在于,...

【专利技术属性】
技术研发人员:刘宴兵刘浩宇程川云肖云鹏朱萌钢帅杰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1