本发明专利技术公开一种基于DBSCAN聚类的车联网路线复杂度计算方法,包括基于GPS数据的行程数据的获取;行程数据的预处理;对行程终点进行DBSCAN聚类;行程终点停留时间修正;车辆路线复杂度计算。本发明专利技术采用的DBSCAN聚类方法无需声明聚类数量,可检测出不规则聚类,同时可识别出样本中所有噪声点并不计入任何聚类中心。并且,通过对车辆路线复杂度计算,为后续进行车辆风险评估提供重要指标。行车辆风险评估提供重要指标。行车辆风险评估提供重要指标。
【技术实现步骤摘要】
一种基于DBSCAN聚类的车联网路线复杂度计算方法
[0001]本专利技术涉及一种车辆网车辆路线复杂度计算,具体为一种基于GPS数据的车联网行程数据和DBSCAN聚类算法的路线复杂度计算方法,属于传感器和数据挖掘领域。
技术介绍
[0002]随着车载智能设备的不断发展,包括前装采集设备和后装采集设备在内的采集设备越发多样化,越来越多车辆的行驶数据可以被实时采集并联网。基本的车联网数据包括卫星定位时间、卫星定位精度、卫星定位纬度、海拔、方向盘转角、速度等。车联网可与其他数据(如:天气数据、道路信息限速数据、地图POI数据等)结合起来,更精准地判断驾驶员的驾驶行为和习惯。此外,车联网数据的研究结论对构建用户画像、UBI(Usage Based Insurance)模式车险等有重要意义。
[0003]然而,现有技术中不存在基于DBSCAN(Density
‑
based Spatial Clustering of Applications with Noise)算法的无监督学习算法,从而使得关于车辆网络线的运算或学习复杂,尤其是在没有标注的情况下,几乎不可能使用。
技术实现思路
[0004]本专利技术目的在于提供一种基于DBSCAN聚类的车联网路线复杂度计算方法,通过无监督机器学习DBSCAN聚类算法,对一个用户的所有行程终点进行聚类,并计算信息熵判断该用户的路线复杂度,从而后续可对该用户的驾驶行为进行风险评估。
[0005]本专利技术通过以下步骤实现上述目的:一种基于DBSCAN聚类的车联网路线复杂度计算方法,包括以下步骤:
[0006]步骤一、基于GPS数据的行程数据的获取;
[0007]步骤二、行程数据的预处理;
[0008]步骤三、对行程终点进行DBSCAN聚类;
[0009]步骤四、行程终点停留时间修正;
[0010]步骤五、车辆路线复杂度计算。
[0011]作为本专利技术的进一步方案:所述步骤一中所述行程数据,为用户的所有历史行程信息,任意一条行程trip包含精确的起点卫星定位经度start_lon、起点卫星定位纬度start_lat、终点卫星定位经度end_lon、终点卫星定位纬度end_lat、起点GPS卫星定位时间start_time、终点GPS卫星定位时间end_time,其中,时间精确至年月日时分秒。
[0012]作为本专利技术的进一步方案:所述步骤二中行程数据的预处理包括:
[0013]A.对同一用户的所有行程,按行程起点GPS卫星定位时间升序排序,排序后的行程表示为trip1、trip2、trip3、
…
、trip
n
;
[0014]B.计算每个用户的总行程数,过滤行程数不足N的用户,为了保证结果的准确性和稳定性,行程数量少于N的用户将不参与后续的路线复杂度计算;
[0015]C.计算每一条行程trip
i
在终点的停留时间Δt
i
:
[0016]Δt
i
=start_time
i+1
‑
end_time
i
ꢀꢀꢀ
(1)
[0017]D.最后一条行程暂时不计算停留时间。
[0018]作为本专利技术的进一步方案:所述步骤三中对行程终点进行DBSCAN聚类包括:
[0019]A.设定DBSCAN算法参数:邻域距离阈值ε,以及核心点邻域范围内点数阈值min_points;
[0020]B.用现有的DBSCAN算法,对给定用户的所有行程终点P={(end_loni,end_lat
i
)}聚类,聚类结果为Centroid
i
或Noise,不属于任何一个聚类中心的行程终点归并在Noise类中。
[0021]作为本专利技术的进一步方案:所述步骤四中行程终点停留时间修正包括:
[0022]A.修正大于24小时的核心点停留时间Δt为所属聚类中心Centroid
k
内停留时间小于等于24小时的行程终点p的停留时间均值,若不存在停留时间小于24小时的行程终点,则该点的停留时间修正为24小时,修正公式如下,
[0023][0024]其中,N为聚类中心Centroid
k
内停留时间小于等于24小时的行程终点p的数量;
[0025]B.修正大于24小时的噪声点停留时间Δt为Noise类中停留时间小于等于24小时的行程终点p的停留时间均值,若不存在停留时间小于24小时的行程终点,则该点的停留时间修正为24小时,修正公式如下:
[0026][0027]其中,N为Noise类内停留时间小于等于24小时的行程终点p的数量;
[0028]C.修正最后一条行程终点的停留时间Δt
i
为所属类Class(聚类中心Centroid
k
或Noise)内其他行程终点的停留时间均值;
[0029][0030]作为本专利技术的进一步方案:所述步骤五中车辆路线复杂度的计算包括:
[0031]A.计算每个聚类中心Centroid
k
的停留时长T
k
,及所有行程停留时长和T,公式如下:
[0032][0033]T=∑Δt
i
ꢀꢀꢀ
(6)
[0034]B.计算信息熵Entropy,公式如下:
[0035][0036]C.设定阈值th,当Entropy小于th时,判定该用户路线集中,否则判定该用户路线复杂。
[0037]本专利技术的有益效果:本专利技术采用的DBSCAN聚类算法根据点之间的密度,将紧密连接的点聚到一类:1),DBSCAN算法是一个无监督学习算法,在样本没有标注的情况下亦可使用;2)相比于其他聚类算法如K
‑
Means聚类算法,DBSCAN算法可对不规则区域内的稠密点进行聚类,DBSCAN算法无需声明聚类中心数量;3)DBSCAN可检测出样本中的异常点,这些异常点不会对聚类结果造成影响。
附图说明
[0038]图1为本专利技术整体流程示意图;
[0039]图2为本专利技术的行程预处理、DBSCAN算法和路线复杂度计算示意图。
具体实施方式
[0040]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清除完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]实施例一
[0042]一种基于DBSCAN聚类的车联网路线复杂度计算方法,包括以下步骤:
[0043]第一:基于GPS数据的行程数据的获取。
[0044]所述基于GPS数据的行程数据的获取包括:为GPS采集装备获取的用户所有历史行程信息,任意一条行程trip本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于DBSCAN聚类的车联网路线复杂度计算方法,其特征在于,包括以下步骤:1)基于GPS数据的行程数据的获取;2)行程数据的预处理;3)对行程终点进行DBSCAN聚类;4)行程终点停留时间修正;5)车辆路线复杂度计算。2.根据权利要求1所述的基于DBSCAN聚类的车联网路线复杂度计算方法,其特征在于,所述基于GPS数据的行程数据的获取包括:为GPS采集装备获取的用户所有历史行程信息,任意一条行程trip包含精确的起点卫星定位经度start_lon、起点卫星定位纬度start_lat、终点卫星定位经度end_lon、终点卫星定位纬度end_lat、起点GPS卫星定位时间start_time、终点GPS卫星定位时间end_time,其中,时间精确至年月日时分秒。3.根据权利要求1所述的基于DBSCAN聚类的车联网路线复杂度计算方法,其特征在于,所述行程数据的预处理包括:A.对同一用户的所有行程,按行程起点GPS卫星定位时间升序排序,排序后的行程表示为trip1、trip2、trip3、
…
、trip
n
;B.计算每个用户的总行程数,过滤行程数不足N的用户,为了保证结果的准确性和稳定性,行程数量少于N的用户将不参与后续的路线复杂度计算;C.计算每一条行程trip
i
在终点的停留时间Δt
i
:Δt
i
=start_time
i+1
‑
end_time
i
ꢀꢀꢀꢀ
(1)D.最后一条行程暂时不计算停留时间。4.根据权利要求1所述的基于DBSCAN聚类的车联网路线复杂度计算方法,其特征在于,所述对行程终点进行DBSCAN聚类包括:A.设定DBSCAN算法参数:邻域距离阈值ε,以及核心点邻域范围内点数阈值min_points;B.用现有的DB...
【专利技术属性】
技术研发人员:陈光,
申请(专利权)人:上海评驾科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。