一种基于车联网数据对车主驻留点聚类后的属性分析方法技术

技术编号:14637040 阅读:74 留言:0更新日期:2017-02-15 11:12
一种基于车联网数据对车主驻留点聚类后的属性分析方法,所述方法首先通过对车主驻留点信息进行采集并聚类,再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析,并对该点进行判断,最后获得车主驻留点的属性,本发明专利技术可以将车主的行程数据进行空间维度的处理,通过对驻留点的聚类编号简化了车主行程数据的空间信息,同时对聚类后点的时空属性进行分析,为进一步对车主行为习惯的分析提供夯实的数据基础。

【技术实现步骤摘要】

本专利技术属于车联网
,具体涉及一种基于车联网数据对车主驻留点聚类后的属性分析方法
技术介绍
随着移动互联网和物联网技术的发展,越来越多的车辆通过前装或后装的方式加入了车联网的阵营,并产生了大量的基于车辆位置的数据,然而这些数据的价值还有待进行更多维度、更深层次的挖掘。相关领域,国内外对于车联网数据的使用主要集中在使用车联网数据对不良驾驶行为的识别和预警,以及驾驶行为的经济性研究,而在基于车联网时空数据对车主行为进行深度挖掘的工作才刚刚起步。相关方面如中国专利技术专利申请201410157418.3公开的“一种时空轨迹的模式挖掘方法”,是通过Apriori算法对结构化的时空数据进行频繁项的挖掘,但不能直接适用于车联网非结构化并且存在大量噪声的数据。又如201210074506.8公开的“基于手机定位数据的居民出行特征参数的获取方法”,是通过手机定位数据匹配到交通小区,这种方法对地图信息的依赖性强,且需要完备的交通小区信息。并且在该专利中也给出了判断居住地和工作地的简单方法。但是,上述专利并没有对车主的行程数据进行空间维度的处理,因此需要通过一种方法去为车主行为习惯的分析提供夯实的数据基础。
技术实现思路
为了解决上述,本专利技术提供一种基于车联网数据对车主驻留点聚类后的属性分析方法,所述方法首先通过对车主驻留点信息进行采集并聚类,再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析,并对该点进行判断,最后获得车主驻留点的属性;进一步地,所述分析方法包括:S1:驻留点信息采集;S2:对S1采集的信息进行数据清洗;S3:对S2清洗过的数据进行描述性分析;S4:对S3分析过后的数据通过R语言的geo包里的geodist函数进行计算;S5:对S4计算后的数据进行行程起点和终点聚类及编号;S6:对S4中的点及相应编号进行调整;S7:调整完编号后对数据进行时间属性分析,获得时空属性统计表;S8:根据S7中时空属性统计表判断车主驻留点的属性;进一步地,所述S1信息采集方法为通过OBD采集经度、维度、速度、采集时间、行程开始时间和结束时间数据并发往服务器;进一步地,所述S2数据清洗包括:S21:基于OBD采集数据时的工作状态所生成的位掩码,位掩码表示记录中所有字段的有效性,“1”标志为有效,“0”标志为无效;S22:查找并分析其余的异常数据,对异常数据出现的规律性进行分析,清除数据或者修改异常数据;进一步地,所述S3中描述性分析具体为对数据进行描述性统计工作,所述描述性统计工作包括记录行程统计表和车主统计表,所述行程统计表和车主统计表的统计指标包括:行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间;进一步地,所述S5具体包括:S51:计算一个观察时间窗口内所有行程起点、终点的任意两点的平面距离矩阵;S52:计算每个点N米范围内点的个数;S53:找到范围内包含点数最多的点的集合,并通过计算得到该区域内的点的中心,并给予编号P1、P2、P3...;S54:将所有距离该区域中心点N米范围内的所有点视为该区域内的点,记录相同的编号;S55:在将所有高频聚点都编号之后,开始对其余点编号,遵循以下原则:1)若任意两点的平面距离小于N米,则该两点编号一致;2)在此循环中,编号一旦存在,无法更改;进一步地,所述S6中调整方法包括:方法一:计算两个点分别到和对方编号一样的所有点的平均距离;方法二:详细考察首尾编号差的平面距离的数值分布,设定一个临界阈值S,当首尾距离大于此临界阈值S时,则认为是由于GPS数据偏差造成的位置偏差,不对编号进行调整,若首尾距离小于临界阈值S,且首尾编号不一致时,需要对其中一个的编号进行调整,将小于某个临界阈值S的点编号为前一行程的终点编号;进一步地,所述S7中时间属性分析具体为;进一步地,S71:对分析点的所有GPS点的中心进行逆地理编码得到的实际地址、地址属性、附近POI点数量;其中,POI信息主要表征区域的地域属性,由其中所含的不同类别设施的数量表示;S72:使用由地图商(例如高德、OpenStreetMap等)所提供地图的API接口进行逆地理编码,并按返回所需求的数据格式;S73:独从时间和空间两个维度分别模糊判断车主驻留点属性进行判断,由于地理信息的复杂性,优先考虑时间上的各项指标值对该驻留点的属性进行判断;构建驻留点的属性统计表如下,允许表中数据为空:S74:对各项属性设定阈值,从而判断驻留点的属性;由包含时空属性的统计表进行组合筛选,按下表给出几种筛选判断;S75:通过机器学习的方法,训练分类器,训练分类器首先对数据进行采集,得到一定量的车主驻留点属性标签,再使用C4.5或者BP神经网络,训练学习精确的分类器;进一步地,所述S75中训练分类器方法中BP网络神经方法如下:S751:将试验人员在一定时间的数据按照聚点算法进行聚点,并统计其特征量,并由试验人员自行确认所有聚点的属性,将以上数据作为输入训练神经网络;S752::对非数值的数据进行量化,在对地理属性进行量化时,将所有返回地址属性进行编号量化,聚点附近POI统计的量化简单实用其POI统计中占比最多属性的编号;S753:将试验人员提交的所有聚点属性分类并编号:,神经网络方法如下:a)构建输入向量和输出值。输入向量为驻留点属性特征判断表中的十一项指标量化后的数值,输出值为聚点属性对应的编号;b)将数据输入已经构建好的神经网络中,网络结构11×10×1的网络拓扑结构,神经元函数为Sigmoid特征函数;c)使用采集处理后的数据分为两部分,训练数据和检验数据,将训练数据作为输入训练神经网络,取学习率η=0.3,误差标准ε=0.005,得到训练好的神经网络;d)选择检验数据作为输入,判断神经网络预测模型得到的结果的准确性;本专利技术的有益效果如下:可以将车主的行程数据进行空间维度的处理,通过对驻留点的聚类编号简化了车主行程数据的空间信息,同时对聚类后点的时空属性进行分析,为进一步对车主行为习惯的分析提供夯实的数据基础。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本专利技术进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。下面结合具体实施例对本专利技术作进一步说明,但不作为对本专利技术的限定。下面为本专利技术的举出最佳实施例:一种基于车联网数据对车主驻留点聚类后的属性分析方法,所述方法首先通过对车主驻留点信息进行采集并聚类,再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析,并对该点进行判断,最后获得车主驻留点的属性,所述分析方法包括:S1:驻留点信息采集;S2:对S1采集的信息进行数据清洗;S3:对S2清洗过的数据进行描述性分析;S4:对S3分析过后的数据通过R语言的geo包里的geodist函数进行计算;S5:对S4计算后的数据进行行程起点和终点聚类及编号;S6:对S4中的本文档来自技高网...

【技术保护点】
一种基于车联网数据对车主驻留点聚类后的属性分析方法,其特征在于,所述方法首先通过对车主驻留点信息进行采集并聚类,再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析,并对该点进行判断,最后获得车主驻留点的属性。

【技术特征摘要】
1.一种基于车联网数据对车主驻留点聚类后的属性分析方法,其特征在于,所述方法首先通过对车主驻留点信息进行采集并聚类,再结合聚类后聚点的时间属性及通过逆地理编码得到的聚点空间属性进行分析,并对该点进行判断,最后获得车主驻留点的属性。2.根据权利要求1所述的分析方法,其特征在于,所述分析方法包括:S1:驻留点信息采集;S2:对S1采集的信息进行数据清洗;S3:对S2清洗过的数据进行描述性分析;S4:对S3分析过后的数据通过R语言的geo包里的geodist函数进行计算;S5:对S4计算后的数据进行行程起点和终点聚类及编号;S6:对S4中的点及相应编号进行调整;S7:调整完编号后对数据进行时间属性分析,获得时空属性统计表;S8:根据S7中时空属性统计表判断车主驻留点的属性。3.根据权利要求2所述的分析方法,其特征在于,所述S1信息采集方法为通过OBD采集经度、维度、速度、采集时间、行程开始时间和结束时间数据并发往服务器。4.根据权利要求2所述的分析方法,其特征在于,所述S2数据清洗包括:S21:基于OBD采集数据时的工作状态所生成的位掩码,位掩码表示记录中所有字段的有效性,″1″标志为有效,″0″标志为无效;S22:查找并分析其余的异常数据,对异常数据出现的规律性进行分析,清除数据或者修改异常数据。5.根据权利要求2所述的分析方法,其特征在于,所述S3中描述性分析具体为对数据进行描述性统计工作,所述描述性统计工作包括记录行程统计表和车主统计表,所述行程统计表和车主统计表的统计指标包括:行程起点、终点坐标、行程开始时间、结束时间、行程持续时间、行程结束停车时间。6.根据权利要求2所述的分析方法,其特征在于,所述S5具体包括:S51:计算一个观察时间窗口内所有行程起点、终点的任意两点的平面距离矩阵;S52:计算每个点N米范围内点的个数;S53:找到范围内包含点数最多的点的集合,并通过计算得到该区域内的点的中心,并给予编号P1、P2、P3...;S54:将所有距离该区域中心点N米范围内的所有点视为该区域内的点,记录相同的编号;S55:在将所有高频聚点都编号之后,开始对其余点编号,遵循以下原则:1)若任意两点的平面距离小于N米,则该两点编号一致;2)在此循环中,编号一旦存在,无法更改。7.根据权利要求2所述的分析方法,其特征在于,所述S6中调整方法包括:方法一:计算两个点分别到和对方...

【专利技术属性】
技术研发人员:侯志伟耿文童李旭
申请(专利权)人:北京车网互联科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1