The present invention discloses a large data analysis method based on the decision tree, including the following steps: S1: establishing a multi-layer decision tree; S2: extracting at least two data with corresponding relations as a data group and extracting the information entropy of the data group; S3: cyclic execution of S2 until the number of data larger than the threshold value in the large database is used; S4: Pairs Data group carries out cluster analysis and divides the same type of data group into the same layer of decision tree, so that the hierarchy relationship of multi-layer decision tree is clear. Based on the large data analysis method of decision tree, the decision tree is set up and the hierarchical relationship of decision tree is defined by clustering, and the method of combining decision tree with information entropy can be used to analyze the large data from multiple levels, and improve the accuracy of the analysis result and add the new method. The input data can be directly brought into the decision tree, and the analysis speed is greatly improved, thus improving the government's judgement and operation efficiency.
【技术实现步骤摘要】
基于决策树的大数据分析方法
本专利技术涉及数据分析领域,具体涉及基于决策树的大数据分析方法。
技术介绍
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
技术实现思路
本专利技术所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供基于决策树的大数据分析方法,解决上述问题。本专利技术通过下述技术方案实现:基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。现有技术中,为了了解民生情况,政府部门收集 ...
【技术保护点】
基于决策树的大数据分析方法,其特征在于,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。
【技术特征摘要】
1.基于决策树的大数据分析方法,其特征在于,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;S5:以层级关系明确后的多层决策树对新加入的数据进行分析。2.根据权利要求1所述的基于决策树的大数据分析方法,其特征在于,步骤S4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应...
【专利技术属性】
技术研发人员:徐帅,
申请(专利权)人:成都逸重力网络科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。