当前位置: 首页 > 专利查询>汕头大学专利>正文

一种基于车联网的大数据分析方法技术

技术编号:9668046 阅读:115 留言:0更新日期:2014-02-14 06:37
本发明专利技术实施例公开了一种基于车联网的大数据分析方法,需要将输入的数据记录完全拆分成属性列表的形式,并进行一次排序,并产生产生根节点的分裂,通过循环分裂完成属性表的完全分裂,并生成一颗完整的决策树,提取树结构,并生成相应的模式规则。通过本发明专利技术可以从海量的车辆的数据中,进行分析处理,当接收到用户的搜索请求时,可快速分析出客户需要的数据和数据的组合,从而给用户提供决策辅助。

【技术实现步骤摘要】

本专利技术涉及一种数据分析搜索方法,尤其涉及。
技术介绍
随着汽车保有量的持续增加,消费者对汽车安全需求增加,车主对安全的需求不仅是车辆本身的安全可靠性,还体现在了那些能通过电子安全产品或服务技术提供更多安全保障的辅助驾驶系统,这种需求的扩张带动了市场对汽车安全检测需求逐渐膨胀。目前现有技术的车联网品如安吉星、sync等,主要是集中的车载终端上,为车主提供的服务存在局限性,各服务环节没有联网或是联网而未能有机的整合,因而导致一系列问题:当汽车故障时,车主只能依靠4S店的救援、维修;由于汽车故障现场数据的丢失,增加了 4S店维修成本。保险公司因为没有精确的数据,被骗保现象时有发生,损失巨大;而有良好驾驶习惯的车主并没有获得客观的保费优费等。构成车联网的每辆车每秒可以产生多达100条数据,数以千万计的汽车成年累月将形成海量大数据库,将车联网与大数据结合,可将车联网数据形成巨大的“数据宝库”,可以此为基础,开发出价值巨大的商业化应用,而目前市场上未有车联网大数据智能分析相关广品。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供。可对车辆大数据进行分析及快速搜索。为了解决上述技术问题,本专利技术实施例提供了,包括以下步骤: 对采集到的关于车辆的状态数据集拆分成属性表,通过SPRINT算法对连续值属性表进行排序,并从所述属性表中执行计算Gini值任务并寻找分裂点,将具有相同属性名的属性表附着在相应的节点上并打上相应节点的标记,并分发到同一个Reduce进行处理;将包含有相应Gini值及分裂点的属性表通过Reduce比较Gini值的大小,使用最小Gini值的属性作为最佳分裂属性,将对应的分裂点分裂到同一个节点的属性列表的记录Id写入哈希表,再将属性列表进行输出,并将根节点输入HDFS文件中; 通过Reduce根据属性的特点构造不同的直方图,并通过对已排序的连续值属性表或者分类属性表的扫描,实时的更新直方图,计算相应的分裂Gini指数,从而找到当前节点的当前属性的最佳分裂点,将输出的信息都放入HDFS文件中; 将不同节点上的属性表进行分发,将当前节点的所有属性表通过Reduce处理,并识别当前节点是否为叶节点,对非叶节点进行循环过滤,并将当前节点作为叶节点信息写入HDFS文件中。进一步地,所述车辆的状态数据集通过获取车载终端获取车辆的OBD数据生成。更进一步地,所述OBD数据还包括胎压、定位数据。进一步地,所述属性表包括以下形式:〈〈0,Ai, AC, Vj>,〈idj,Cj>> ;其中0表示所有的属性表附着在根节点上,Ai表示训练集的第i的属性,AC表示属性的类别,idj表示每条属性表记录在整个数据集中的记录索引,Cj表示这条属性表记录的类属性的值。更进一步地,所述分发到同一个Reduce进行处理是定义Patitioner,并且要定义key的将具有不同的Ai的中间键值对分发到不同的reducer。更进一步地,所述分发到同一个Reduce进行处理将输出键值表示为〈〈0,Ai, AC,Vj>,〈idj, Cj, Gini, Split〉〉;其中Gini表示相应属性表的Gini值,Split表示分裂点。进一步地,所述识别当前节点是否为叶节点通过以下步骤识别为叶节点: 当前节点的所有属性表属于同一类; 当前节点所含属性表数量小于预先设定的阀值; 当所有的属性表都被分裂到同一个节点; 当前节点的属性表分裂到两个子节点中。实施本专利技术实施例,具有如下有益效果:通过本专利技术可以从海量的车辆的数据中,进行分析处理,当接收到用户的搜索请求时,可快速分析出客户需要的数据和数据的组合,从而给用户提供决策辅助。【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术作进一步地详细描述。本专利技术根据实际应该用中,数据量庞大等特点,采用基于Hadoop (分布式系统平台,具有极强的分布式存储和计算的能力)的MIIS (Mult1-level Inverted IndexStructure)倒排索引结构、AMPS (Align and Merge Placement Strategy)倒排索引及副本放置策略和PforDelta压缩为基础系统平台。MIIS倒排索引结构,基本思想是将倒排索引文件的主要内容分块存放在数据节点中,在名称节点中存放关键词和块位置信息的映射,以及某一时间段的文档集合与其倒排索引所在数据块位置信息的映射,倒排索引块存储在集群中的各个数据节点上并维护着存放倒排索引的数据块集合的状态信息。倒排索引分布式构建算法的基本思想是:首先,对文档集合进行分块操作,将分好的块存放在HDFS文件系统中;然后利用Map操作对每个文档块生成倒排索引文件,利用Reduce操作对所有的倒排索引文件进行合并,生成该文档集的倒排索引;最后,倒排索引按照AMPS放置策略被分块写入到HDFS文件系统中,同时更新数据节点上的辅助块信息索引,并向名称节点发送相应数据更新名称节点上的辅助查询索引和辅助删除索引。整个构建过程中的数据读取和存放都是在HDFS文件系统中运行, 利用MapReduce能够快速地为大量文档块分布式构建倒排索引,并且按照AMPS放置策略来放置倒排索引文件,同时以MIIS倒排索引结构组织倒排索引文件,为查询和批量更新操作奠定了基础。Hadoop主要有HDFS文件系统和MapReduce编程模型两个主要部分组成。HDFS (Hadoop分布式文件系统)文件系统架构是采用管理者-工作者(Master-Slave)的结构,也就是一个名称节点(Master)和多个的数据节点(Slave)。MapReduce也是采用管理者-工作者(Master-Slave)的模式。Hadoop把一个作业(job)分成很多个小任务(task)来执行,这其中包括两种任务:Map任务和Reduce任务。本专利技术采用SPRINT算法将采集到的车载终端的OBD数据集进行处理,分三个阶段执行分析处理,其中第一阶段主要用来产生已排序的属性表,产生根节点的分裂。第二阶段主要用来执行循环的分裂过程,完成属性表的完全分裂,生成一颗完整的决策树。第三阶段主要用来提取树结构,并生成相应的模式规则。第一阶段:在这个阶段,需要将输入的数据记录完全拆分成属性列表的形式,并进行一次排序。在这个过程中,准备好附属所有在NodeO上的所有属性列表,进行相应计算,计算每张属性表的Gini值、分裂点,然后进行综合比较,实现首次分裂。然后我将相应的属性表附着在NodeOO和NodeOl上。为第二阶段的循环做好准备。第一阶段需要执行两个Job来完成。Jobl 的 map 过程: 这个过程对OBD数据集进行拆分,并完全生成属性列表,用来表征所有的数据集。将训练集拆分为M份,对于每一份训练集,具有相同的属性个数n。这一过程由InputFormat(输入格式)来实现,它负责解析和生成map()的输入键值对。对于map()方法,输入为数据集的每条记录,通过定义相应的规则,将输出表示为:<〈0,Ai,AC,Vj>,〈idj,Cj>>。0表示所有的属性表附着在根节点上,Ai表示训练集的第i的属性,AC表示属性的类别(分类还本文档来自技高网...

【技术保护点】
一种基于车联网的大数据分析方法,其特征在于,包括以下步骤:对采集到的关于车辆的状态数据集拆分成属性表,通过SPRINT算法对连续值属性表进行排序,并从所述属性表中执行计算Gini值任务并寻找分裂点,将具有相同属性名的属性表附着在相应的节点上并打上相应节点的标记,并分发到同一个Reduce进行处理;将包含有相应Gini值及分裂点的属性表通过Reduce比较Gini值的大小,使用最小Gini值的属性作为最佳分裂属性,将对应的分裂点分裂到同一个节点的属性列表的记录Id写入哈希表,再将属性列表进行输出,并将根节点输入HDFS文件中;通过Reduce根据属性的特点构造不同的直方图,并通过对已排序的连续值属性表或者分类属性表的扫描,实时的更新直方图,计算相应的分裂?Gini?指数,从而找到当前节点的当前属性的最佳分裂点,将输出的信息都放入HDFS文件中;将不同节点上的属性表进行分发,将当前节点的所有属性表通过Reduce处理,并识别当前节点是否为叶节点,对非叶节点进行循环过滤,并将当前节点作为叶节点信息写入HDFS文件中。

【技术特征摘要】
1.一种基于车联网的大数据分析方法,其特征在于,包括以下步骤: 对采集到的关于车辆的状态数据集拆分成属性表,通过SPRINT算法对连续值属性表进行排序,并从所述属性表中执行计算Gini值任务并寻找分裂点,将具有相同属性名的属性表附着在相应的节点上并打上相应节点的标记,并分发到同一个Reduce进行处理; 将包含有相应Gini值及分裂点的属性表通过Reduce比较Gini值的大小,使用最小Gini值的属性作为最佳分裂属性,将对应的分裂点分裂到同一个节点的属性列表的记录Id写入哈希表,再将属性列表进行输出,并将根节点输入HDFS文件中; 通过Reduce根据属性的特点构造不同的直方图,并通过对已排序的连续值属性表或者分类属性表的扫描,实时的更新直方图,计算相应的分裂Gini指数,从而找到当前节点的当前属性的最佳分裂点,将输出的信息都放入HDFS文件中; 将不同节点上的属性表进行分发,将当前节点的所有属性表通过Reduce处理,并识别当前节点是否为叶节点,对非叶节点进行循环过滤,并将当前节点作为叶节点信息写入HDFS文件中。2.根据权利要求1所述的基于车联网的大数据分析方法,其特征在于,所述车辆的状态数据集通过获取车载终端获取车辆的OBD数据生成。3.根据权利要求2所述的基于车联网的大数据分析方法,其特...

【专利技术属性】
技术研发人员:杨格
申请(专利权)人:汕头大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1