一种基于信息熵的农业气象数据冗余消除方法及系统技术方案

技术编号:20869446 阅读:28 留言:0更新日期:2019-04-17 09:56
本发明专利技术涉及农业数据处理领域,具体涉及一种基于信息熵的农业气象数据冗余消除方法,包括:构建决策信息表步骤,采集所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,并构建成决策信息表;计算互信息量步骤,根据信息熵和条件熵可得出互信息量;确定相关属性步骤,若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策属性集之间互信息量,输出核属性数据集R;灾害评估步骤,对核属性数据集R进行数据挖掘分析,根据结果对农业气象灾害进行评估。本发明专利技术能提升对农业气象数据的处理速度,能提高农业气象灾害评估准确度。

【技术实现步骤摘要】
一种基于信息熵的农业气象数据冗余消除方法及系统
本专利技术涉及农业数据处理领域,具体涉及一种基于信息熵的农业气象数据冗余消除方法及系统。
技术介绍
随着气候环境对农业生产的影响日益密切,如何高效处理海量增长的气象数据,提高农业气象灾害评估的科学性与准确性成为农业气象灾害研究的热门,农业气象灾害评估的作用主要是通过分析历史气象数据信息,直观的对农作物的受损等级进行分类评估以及对可能发生的灾害进行预警,指导农户合理的进行农业生产。历史气象数据量庞大,各要素属性众多,而各类农业灾害的发生可能只依赖于一些特定的气候条件要素,如果直接将属性冗余度较高的气象数据用来分析挖掘,不仅会消耗大量的处理时间还会降低准确度,影响农业气象灾害评估的效率。对于农业气象数据,从原始数据到挖掘、获取有价值信息的过程主要涉及五个步骤,包括:数据采集、数据存储、数据预处理、数据挖掘分析和数据可视化。现有技术中,数据预处理和数据挖掘分析的性能均存在差异,不能消除气象数据中的冗余数据,导致农业气象灾害评估准确度低。因此,需要提供一种农业气象数据冗余消除方法,通过消除气象数据中的冗余数据得到核属性数据(核属性数据指不能去掉的数据),能在保证农业气象灾害评估准确度的前提下提升评估速度。
技术实现思路
本专利技术的目的在于提供一种基于信息熵的农业气象数据冗余消除方法及系统,能消除农业气象数据中的冗余数据,能提升对农业气象数据的处理速度和农业气象灾害评估准确度。本专利技术提供的基础方案为:一种基于信息熵的农业气象数据冗余消除方法,包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,采集的决策数据的集合构成决策信息表;计算互信息量步骤,用于计算条件属性集与决策属性集之间的互信息量,计算决策属性集的信息熵,计算决策属性集与条件属性集的条件熵,根据决策属性集的信息熵、决策属性集与条件属性集的条件熵可得出决策属性集和条件属性集的互信息量;确定相关属性步骤,用于确定相关属性数据,赋值一个核属性数据集R,令属性a属于核属性数据集R在条件属性集中的绝对补集,计算属性a与决策属性集之间的互信息量,判断属性a是否为相关属性:若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,计算核属性数据集R与决策属性集之间的互信息量,获得核属性数据集R与决策属性集之间的不确定性关系:若核属性数据集R与决策属性集之间的互信息量不等于条件属性集与决策属性集之间互信息量,则重复上述确定相关属性步骤;若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策属性集之间互信息量,则输出核属性数据集R;本专利技术的有益效果:1、本专利技术中,构建的决策信息表能非常直观地创建了大量的规则,清晰的罗列出所有影响因素及其集合,其平面罗列的方式也能在进行冗余数据消除时,避免因逻辑上的层层嵌套而产生遗漏。2、本专利技术中,确定相关属性步骤中通过互信息量来确定数据之间的相关度,从而确定相关属性,这样能够保留起决定作用的核属性数据,气象核属性数据规定了完整描述一个气象数据集时所需要的数据项集合、各数据项语义定义和著录规则,能充分获取大数据的蕴含价值,还能实现对信息的压缩和再提炼,能减少搜索空间,能提高后续数据挖掘的处理效率。3、本专利技术中,通过确定相关属性步骤和确定核属性数据集步骤实现了对气象冗余数据的消除,能得到气象核属性数据,气象核属性数据提供了有关气象数据集的标识、内容、分发、数据质量、数据表现、参照和限制等信息,能提高对农业气象数据的处理速度,能有效提高农业气象灾害评估准确度。进一步,条件属性集与决策属性集之间的互信息量为I(C,D),I(C,D)是在已知决策属性集D的具体值之后,将条件属性集C值的冗余数据去除,具体的计算公式为I(C,D)=H(D)-H(D|C)。有益效果:通过信息熵和条件熵找出了气象数据中冗余数据与各个条件属性集的不确定性,能有效的去除冗余数据,能提高后续数据挖掘的处理效率。进一步,去除冗余数据的具体步骤为:S01:计算决策信息表DT中条件属性集C与决策属性集D的条件熵H(D|C);S02:分别计算决策属性集D与条件属性集C中的每个条件属性ai的条件熵H(D|ai)(ai∈C);S03:令N为约简集合,令N=C,以H(D|ai)递减的顺序排列条件属性ai;S04:计算去除条件属性ai后相应的条件熵H(D|N-{ai}),条件属性ai的判断:若H(D|C)=H(D|N-{ai}),则该条件属性ai为冗余数据,删除该条件属性ai,令N=N-{ai};若H(D|C)≠H(D|N-{ai}),则保留该条件属性ai,令N=N-{ai};S05:循环S4步骤,将条件属性集C中每个条件属性ai得到判断后,得到互信息量I(C,D)。进一步,条件熵H(D|C)和信息熵H(D)的计算步骤为:数据集合划分,将决策属性集D、条件属性集C在所有对象集合U上导出的数据集合划分为X、Y,其中:X={X1,X2,...,Xm},Y={Y1,Y2,Yn};计算概率分布,决策属性集D、条件属性集C在所有对象集合U的子集合中组成的σ代数的概率分布为:决策属性集D和条件属性集C的信息熵H(D):其中,条件熵H(D|C):其中,进一步,核属性数据的获取方法包括:数据采集步骤,采集历史气象数据、天气要素属性数据以及农业受灾数据;数据预处理步骤,输入所有对象集合U、条件属性集C、决策属性集D以及属性值集V,构建影响农业气象灾害的决策信息表DT=(U,C∪D,V,f),其中,f代表系统函数;获取核属性数据步骤,在农业气象灾害决策信息表中,对于如果有f(x,D)≠f(y,D),且f(x,C-a)=f(y,C-a),那么a就是核属性数据。本专利技术还提供了一种基于信息熵的农业气象数据冗余消除系统,包括:数据采集模块,用于采集历史气象数据、气象要素属性数据以及农业受灾数据;处理器,用于接收数据采集模块的数据,将数据生成决策信息表,从决策信息表DT提取核属性数据,通过预设公式计算出信息熵H(D)、条件熵H(D|C)和条件熵H(D|R),最终得到互信息量I(C,D)、互信息量I(a,D)以及互信息量I(R,D),判断条件属性集中的冗余数据和相关属性,并得出核属性数据集R。数据输出模块,用于接收处理器计算得出的核属性数据集R。进一步,所述处理器包括:数据生成模块,用于接收采集的所有数据,并将所有数据构建成影响农业气象灾害的决策信息表DT=(U,C∪D,V,f),其中,U为所有对象集合、C为条件属性集、D为决策属性集、V为属性值集,f代表系统函数;核属性数据提取模块,用于从数据生成模块中的决策信息表DT提取核属性数据;计算模块,用于从数据生成模块的决策信息表DT中提取数据,并通过预设公式计算出信息熵H(D)、条件熵H(D|C)和条件熵H(D|R),最终得到互信息量I(C,D)、互信息量I(a,D)以及互信息量I(R,D);判断模块,用于判断条件属性集C中的冗余数据和决策属性集D中的相关属性,最终得出核属性数据集R。附图说明图1为本专利技术实施例一中一种基于信息熵的农业气象数据冗余消除方法的流程框图;图2为本专利技术实施例一中消除本文档来自技高网...

【技术保护点】
1.一种基于信息熵的农业气象数据冗余消除方法,其特征在于:包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,采集的决策数据的集合构成决策信息表;计算互信息量步骤,用于计算条件属性集与决策属性集之间的互信息量,计算决策属性集的信息熵,计算决策属性集与条件属性集的条件熵,根据决策属性集的信息熵、决策属性集与条件属性集的条件熵可得出决策属性集和条件属性集的互信息量;确定相关属性步骤,用于确定相关属性数据,赋值一个核属性数据集R,令属性a属于核属性数据集R在条件属性集中的绝对补集,计算属性a与决策属性集之间的互信息量,判断属性a是否为相关属性:若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,计算核属性数据集R与决策属性集之间的互信息量,获得核属性数据集R与决策属性集之间的不确定性关系:若核属性数据集R与决策属性集之间的互信息量不等于条件属性集与决策属性集之间互信息量,则重复上述确定相关属性步骤;若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策属性集之间互信息量,则输出核属性数据集R。...

【技术特征摘要】
1.一种基于信息熵的农业气象数据冗余消除方法,其特征在于:包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,采集的决策数据的集合构成决策信息表;计算互信息量步骤,用于计算条件属性集与决策属性集之间的互信息量,计算决策属性集的信息熵,计算决策属性集与条件属性集的条件熵,根据决策属性集的信息熵、决策属性集与条件属性集的条件熵可得出决策属性集和条件属性集的互信息量;确定相关属性步骤,用于确定相关属性数据,赋值一个核属性数据集R,令属性a属于核属性数据集R在条件属性集中的绝对补集,计算属性a与决策属性集之间的互信息量,判断属性a是否为相关属性:若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,计算核属性数据集R与决策属性集之间的互信息量,获得核属性数据集R与决策属性集之间的不确定性关系:若核属性数据集R与决策属性集之间的互信息量不等于条件属性集与决策属性集之间互信息量,则重复上述确定相关属性步骤;若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策属性集之间互信息量,则输出核属性数据集R。2.根据权利要求1所述的一种基于信息熵的农业气象数据冗余消除方法,其特征在于:条件属性集与决策属性集之间的互信息量为I(C,D),I(C,D)是在已知决策属性集D的具体值之后,将条件属性集C值的冗余数据去除,具体的计算公式为I(C,D)=H(D)-H(D|C)。3.根据权利要求2所述的一种基于信息熵的农业气象数据冗余消除方法,其特征在于:去除冗余数据的具体步骤为:S01:计算决策信息表DT中条件属性集C与决策属性集D的条件熵H(D|C);S02:分别计算决策属性集D与条件属性集C中的每个条件属性ai的条件熵H(D|ai)(ai∈C);S03:令N为约简集合,令N=C,以H(D|ai)递减的顺序排列条件属性ai;S04:计算去除条件属性ai后相应的条件熵H(D|N-{ai}),条件属性ai的判断:若H(D|C)=H(D|N-{ai}),则该条件属性ai为冗余数据,删除该条件属性ai,令N=N-{ai};若H(D|C)≠H(D|N-{ai}),则保留该条件属性ai,令N=N-{ai};S05:循环S4步骤,将条件属性集C中每个条件属性ai得到判断后,得到互信息量I(C,D)。4.根据权利要求3所述的一...

【专利技术属性】
技术研发人员:简宋全何佳宁赵轩秦于钦张清瑞
申请(专利权)人:广东精点数据科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1