一种有利于信息比对的大数据系统技术方案

技术编号:17879045 阅读:22 留言:0更新日期:2018-05-06 00:49
本发明专利技术公开了一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。本发明专利技术一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

A large data system in favor of information comparison

The invention discloses a large data system which is beneficial to information comparison, including: the decision tree module used to establish the multi-layer decision tree; extracting at least two data with corresponding relations as the extraction module of the data group; the extraction module extracts the data until the data which is larger than the threshold value in the large database are used. A clustering module for clustering analysis of data groups; an analysis module for the analysis of the newly added data after the hierarchical decision tree is defined. The invention is a large data system which is beneficial to information comparison. By setting up a decision tree, the hierarchical relationship of the decision tree is defined by clustering, and the method of combining decision tree with information entropy can be used to analyze the large data from multiple levels, and improve the accuracy of the analysis results, and the accuracy of the analysis results is improved. The newly added data can be directly brought into the decision tree, and the speed of analysis is greatly improved, thus improving the government's judgement and operation efficiency.

【技术实现步骤摘要】
一种有利于信息比对的大数据系统
本专利技术涉及数据分析领域,具体涉及一种有利于信息比对的大数据系统。
技术介绍
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。
技术实现思路
本专利技术所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供一种有利于信息比对的大数据系统,解决上述问题。本专利技术通过下述技术方案实现:一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本专利技术应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本专利技术通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。进一步的,所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。进一步的,所述多层决策树至少有三层。进一步的,所述阈值数量为70%~80%。进一步的,所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。本专利技术与现有技术相比,具有如下的优点和有益效果:本专利技术一种有利于信息比对的大数据系统,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术系统结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,本专利技术一种有利于信息比对的大数据系统,一种有利于信息比对的大数据系统,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。所述聚类模块还用于设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%。所述分析模块还用于将新加入的数据填入决策树的第一层,根据决策树的层级关系将数据映射入决策树的下一层,重复执行S52直至数据抵达决策树的最后一层,以决策树最后一层的结果作为数据分析的最终结果。本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行S2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本专利技术通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。以上所述的具体实施方式,对本专利技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本专利技术的具体实施方式而已,并不用于限定本专利技术的保护范围,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种有利于信息比对的大数据系统

【技术保护点】
一种有利于信息比对的大数据系统,其特征在于,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。

【技术特征摘要】
1.一种有利于信息比对的大数据系统,其特征在于,包括:用于建立多层决策树的决策树模块;用于提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵的提取模块;所述提取模块提取数据直至大数据库中大于阈值数量的数据都使用过;用于对数据组进行聚类分析的聚类模块;所述聚类模块将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;用于以层级关系明确后的多层决策树对新加入的数据进行分析的分析模块。2.根据权利要求1所述的一种有利于信息比对的大数据系统,其特征在于,所述聚类模块还用于设置聚...

【专利技术属性】
技术研发人员:徐帅
申请(专利权)人:成都逸重力网络科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1