基于决策树的大数据分析方法技术

技术编号:17994512 阅读:42 留言:0更新日期:2018-05-19 11:42
本发明专利技术公开了基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确。本发明专利技术基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

Large data analysis method based on decision tree

The present invention discloses a large data analysis method based on the decision tree, including the following steps: S1: establishing a multi-layer decision tree; S2: extracting at least two data with corresponding relations as a data group and extracting the information entropy of the data group; S3: cyclic execution of S2 until the number of data larger than the threshold value in the large database is used; S4: Pairs Data group carries out cluster analysis and divides the same type of data group into the same layer of decision tree, so that the hierarchy relationship of multi-layer decision tree is clear. Based on the large data analysis method of decision tree, the decision tree is set up and the hierarchical relationship of decision tree is defined by clustering, and the method of combining decision tree with information entropy can be used to analyze the large data from multiple levels, and improve the accuracy of the analysis result and add the new method. The input data can be directly brought into the decision tree, and the analysis speed is greatly improved, thus improving the government's judgement and operation efficiency.

【技术实现步骤摘要】
基于决策树的大数据分析方法
本专利技术涉及数据分析领域,具体涉及基于决策树的大数据分析方法。
技术介绍
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
技术实现思路
本专利技术所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供基于决策树的大数据分析方法,解决上述问题。本专利技术通过下述技术方案实现:基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本专利技术应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本专利技术通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。进一步的,步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。进一步的,所述多层决策树至少有三层。进一步的,所述阈值数量为70%~80%。进一步的,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。本专利技术与现有技术相比,具有如下的优点和有益效果:本专利技术基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例本专利技术基于决策树的大数据分析方法,基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%,步骤S5包括以下子步骤:S51:将新加入的数据填入决策树的第一层;S52:根据决策树的层级关系将数据映射入决策树的下一层;S53:重复执行S52直至数据抵达决策树的最后一层;S54:以决策树最后一层的结果作为数据分析的最终结果。本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本专利技术通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。以上所述的具体实施方式,对本专利技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本专利技术的具体实施方式而已,并不用于限定本专利技术的保护范围,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
基于决策树的大数据分析方法,其特征在于,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。

【技术特征摘要】
1.基于决策树的大数据分析方法,其特征在于,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。2.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应...

【专利技术属性】
技术研发人员:徐帅
申请(专利权)人:成都逸重力网络科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1