基于大数据的网联车用户出游分析方法技术

技术编号:26597336 阅读:12 留言:0更新日期:2020-12-04 21:19
本发明专利技术公开了一种基于大数据的网联车用户出游分析方法,包括:对车辆用户行驶轨迹信号进行采集、传输、分析和存储,根据分析需求,利用spark离线大数据分析引擎对这段时间的用户轨迹数据进行分析,得出每个车辆用户出游景区情况并写入Hive大数据仓库,以用户、景区为基本维度进行统计分析,将结果以报表或者图表的形式展示出来。本发明专利技术通过应用大数据计算平台和分布式数据分析方法对海量的车辆用户行驶轨迹进行分析,能够对车辆用户节假日出行情况有个整体和真实的了解。

【技术实现步骤摘要】
基于大数据的网联车用户出游分析方法
本专利技术属于大数据离线分析
,具体涉及一种基于大数据的网联车用户出游分析方法。
技术介绍
随着物联网的兴起和通信技术的发展成熟,万物互联成为了时代发展的必然需要。对于汽车领域而言,搭载了车联网服务功能的网联汽车越来越普及,汽车厂商能够通过车身上的传感器收集表征车辆信息的各种信号,然后对车辆进行大数据分析。对于节假日车辆用户出游而言,通过对海量的车辆行驶轨迹进行分析,能够从宏观上了解汽车用户在节假日的具体出行情况,进而针对具体车辆用户进行旅游景区推荐,景区针对出行用户设定优惠措施具有重要意义。目前各大整车厂商对于车辆用户节假日出行情况分析大多停留在小样本分析阶段(通过对用户轨迹数据进行样本采样),无法从宏观的层面掌握大量用户的节假日出行情况,得出来的分析结果往往是片面的,不能够真实地反映出用户整体的出行情况。因此,有必要开发一种新的基于大数据的网联车用户出游分析方法。
技术实现思路
本专利技术提供一种基于大数据的网联车用户出游分析方法,能较真实反映出用户整体的出行情况。本专利技术所述的基于大数据的网联车用户出游分析方法,包括:车辆数据采集:车辆在行驶过程中,将包含有车辆行驶轨迹数据的车况信号由TBOX按照一定的频率采集后通过网关上传到KAFKA消息队列,不同的数据类别对应KAFKA不同的主题;云端数据存储:采用Flink实时数据处理引擎对接包含有车辆行驶轨迹数据的车况信号的KAFKA消息队列,并对KAFKA消息队列里面的车况信号数据实时解析,筛选出车辆行驶轨迹数据,并按照当前时间信息,将该条车辆行驶轨迹数据写入按照时间目录分区的HDFS文件系统;通过对车辆行驶轨迹数据的实时解析,并将车辆行驶轨迹数据存入对应日期分区文件;车辆行驶轨迹数据预处理:将每个车辆用户每一次出行轨迹信息作为一条轨迹数据存放在HDFS文件系统,对每次出行轨迹的轨迹点进行采样,采样阈值根据当前轨迹行驶时间track_time,轨迹点个数track_number,行驶里程run_total_odometer这三个指标来确定;将少于采样样本的轨迹保留当前轨迹点数量,将大于采样样本的轨迹点按相同步长进行采样;匹配景区数据:首先获取景区数据,将获取到的景区数据进行标准化处理,然后将标准化后的景区数据存储到hive表中;在景区数据匹配过程中,将景区数据中的景区名字、省份、城市和经纬度信息作为广播变量分发到spark各个executor节点,循环遍历每个用户的每个轨迹点和景区列表中的经纬度信息做逐个比较,如果轨迹点之间的距离在预设距离范围以内,则认为用户到过景区;并将满足去过景区条件数据的时间点映射成以天为单位的日期,然后通过聚合用户ID和日期对旅游数据进行去重过滤,确保用户每天去过一次景区;最后将用户、景区、省份、日期数据存入HIVE仓,作为用户出游的基础数据,以供应用根据需求进行多维度统计分析;用户出游分析:提供以用户和景区两个为中心来进行分析,并将分析结果数据用图标展示出来,以供阅览者查阅。进一步,所述车辆行驶轨迹数据包括车辆当前时间点所在位置经纬度信息、当前时间信息和车架号编码。进一步,每个车辆用户每一次出行轨迹信息由点火和熄火信号确定。进一步,在车辆行驶轨迹数据预处理时,还保留正式节假日前一天和后一天的轨迹数据,用于出游分析时计算用户出游的起始时间和结束时间。进一步,景区匹配数据仅匹配正式节假日车辆产生的轨迹数据。进一步,用户出游分析时,以用户为中心,从用户年龄、星座、性别和驾驶里程来进行分析,以得到不同年龄、星座、性别的用户最喜欢的景点、最喜欢的城市、是否喜欢长途旅行以及出游天数的数据;以景区为中心,从景区到访人数和景区类型来进行分析,以得到本次节假日出游topN景点,不同景区类型受欢迎程度的数据,最后将这些结果数据用合适的图标展示出来供阅览者查阅。本专利技术具有以下优点:本专利技术通过应用大数据计算平台和分布式数据分析方法对海量的车辆用户行驶轨迹进行分析,能够对车辆用户节假日出行情况有个整体和真实的了解。附图说明图1为本实施例中用户出游大数据分析计算框架图;图2为本实施例中用户出游大数据分析具体流程图。具体实施方式下面结合附图对本专利技术作进一步说明。如图1和图2所示,本实施例中,一种基于大数据的网联车用户出游分析方法,主要介绍如何应用spark大数据分析引擎,并行计算每个车辆用户每天出游情况,完成基于用户或者景区的出游情况分析。具体包括以下步骤:(1)车辆数据采集:车辆在行驶过程中,车辆行驶轨迹数据存在于CAN总线上,根据一定的频率通过TBOX采集后由网关上传到KAFKA消息队列,不同的数据类别对应KAFKA不同的主题(即Topic,参见图1,如Topic-carcondition,Topic-dtcfault,Topic-others)。(2)云端数据存储:采用Flink实时数据处理引擎对接包含车辆行驶轨迹数据的车况信号KAFKA消息队列,并对KAFKA消息队列里面的车况信号数据实时解析,筛选出车辆行驶轨迹数据(包括车辆当前时间点所在位置经纬度信息、当前时间信息和车架号编码),按照当前时间信息,将该条车辆轨迹信息数据写入按照时间目录分区的HDFS文件系统。通过对用户轨迹数据的实时解析,并将车辆行驶轨迹数据存入对应日期分区文件后,完成了车辆行驶轨迹数据的采集存储流程。(3)车辆轨迹数据预处理:将每个车辆用户每一次出行轨迹信息(由点火,熄火信号确定)作为一条轨迹数据存放在HDFS文件系统,由于每次出行轨迹的轨迹点个数不统一,首先需要对轨迹点进行采样;采样阈值需要从海量轨迹数据中进行确定,通常需要根据当前轨迹行驶时间track_time,轨迹点个数track_number,行驶里程run_total_odometer这三个指标来确定。本实施例中,通过建立run_total_odometer、track_time与track_number的逻辑数量关系确定一个采样阈值。少于采样样本的轨迹保留当前轨迹点数量,大于采样样本的轨迹点按相同步长进行采样。考虑到部分用户在节假日为了避免交通拥堵会提前开始出游计划或延后结束出游计划,所以本实施例在数据预处理时,会将正式节假日前一天和后一天的轨迹数据进行保留,保留的数据主要是用到出游分析时计算用户出游的起始时间和结束时间。(4)匹配景区数据:首先是准备景区数据,可以通过爬虫等方式获取到我国现有星级景区的数据,将获取到的数据进行标准化处理,然后将标准化后的数据存储到hive表中。在景区数据匹配过程中,将这些常用景区数据(包括景区名字、省份、城市和经纬度信息)作为广播变量分发到spark各个executor节点,循环遍历每个用户的每个轨迹点和景区列表中的经纬度信息做逐个比较,如果轨迹点之间的距离在预设距离(比如:1KM)范围以内,则认为用户到过景区。其中,Distance(A,B)=arccos((s本文档来自技高网...

【技术保护点】
1.一种基于大数据的网联车用户出游分析方法,其特征在于,包括:/n车辆数据采集:车辆在行驶过程中,将包含有车辆行驶轨迹数据的车况信号由TBOX按照一定的频率采集后通过网关上传到KAFKA消息队列,不同的数据类别对应KAFKA不同的主题;/n云端数据存储:采用Flink实时数据处理引擎对接包含有车辆行驶轨迹数据的车况信号的KAFKA消息队列,并对KAFKA消息队列里面的车况信号数据实时解析,筛选出车辆行驶轨迹数据,并按照当前时间信息,将该条车辆行驶轨迹数据写入按照时间目录分区的HDFS文件系统;通过对车辆行驶轨迹数据的实时解析,并将车辆行驶轨迹数据存入对应日期分区文件;/n车辆行驶轨迹数据预处理:将每个车辆用户每一次出行轨迹信息作为一条轨迹数据存放在HDFS文件系统,对每次出行轨迹的轨迹点进行采样,采样阈值根据当前轨迹行驶时间track_time,轨迹点个数track_number,行驶里程run_total_odometer这三个指标来确定;将少于采样样本的轨迹保留当前轨迹点数量,将大于采样样本的轨迹点按相同步长进行采样;/n匹配景区数据:首先获取景区数据,将获取到的景区数据进行标准化处理,然后将标准化后的景区数据存储到hive表中;在景区数据匹配过程中,将景区数据中的景区名字、省份、城市和经纬度信息作为广播变量分发到spark各个executor节点,循环遍历每个用户的每个轨迹点和景区列表中的经纬度信息做逐个比较,如果轨迹点之间的距离在预设距离范围以内,则认为用户到过景区;并将满足去过景区条件数据的时间点映射成以天为单位的日期,然后通过聚合用户ID和日期对旅游数据进行去重过滤,确保用户每天去过一次景区;最后将用户、景区、省份、日期数据存入HIVE仓,作为用户出游的基础数据,以供应用根据需求进行多维度统计分析;/n用户出游分析:提供以用户和景区两个为中心来进行分析,并将分析结果数据用图标展示出来,以供阅览者查阅。/n...

【技术特征摘要】
1.一种基于大数据的网联车用户出游分析方法,其特征在于,包括:
车辆数据采集:车辆在行驶过程中,将包含有车辆行驶轨迹数据的车况信号由TBOX按照一定的频率采集后通过网关上传到KAFKA消息队列,不同的数据类别对应KAFKA不同的主题;
云端数据存储:采用Flink实时数据处理引擎对接包含有车辆行驶轨迹数据的车况信号的KAFKA消息队列,并对KAFKA消息队列里面的车况信号数据实时解析,筛选出车辆行驶轨迹数据,并按照当前时间信息,将该条车辆行驶轨迹数据写入按照时间目录分区的HDFS文件系统;通过对车辆行驶轨迹数据的实时解析,并将车辆行驶轨迹数据存入对应日期分区文件;
车辆行驶轨迹数据预处理:将每个车辆用户每一次出行轨迹信息作为一条轨迹数据存放在HDFS文件系统,对每次出行轨迹的轨迹点进行采样,采样阈值根据当前轨迹行驶时间track_time,轨迹点个数track_number,行驶里程run_total_odometer这三个指标来确定;将少于采样样本的轨迹保留当前轨迹点数量,将大于采样样本的轨迹点按相同步长进行采样;
匹配景区数据:首先获取景区数据,将获取到的景区数据进行标准化处理,然后将标准化后的景区数据存储到hive表中;在景区数据匹配过程中,将景区数据中的景区名字、省份、城市和经纬度信息作为广播变量分发到spark各个executor节点,循环遍历每个用户的每个轨迹点和景区列表中的经纬度信息做逐个比较,如果轨迹点之间的距离在预设距离范围以内,则认为用户到过景区;并将满足去过景区条件数据的时间点映射成以天为单位的日期,然后通过聚合用户ID和日期对旅...

【专利技术属性】
技术研发人员:韦鹏蔡春茂谢磊周金文
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1