【技术实现步骤摘要】
一种基于信息熵的农业气象数据冗余消除方法及系统
本专利技术涉及农业数据处理领域,具体涉及一种基于信息熵的农业气象数据冗余消除方法及系统。
技术介绍
随着气候环境对农业生产的影响日益密切,如何高效处理海量增长的气象数据,提高农业气象灾害评估的科学性与准确性成为农业气象灾害研究的热门,农业气象灾害评估的作用主要是通过分析历史气象数据信息,直观的对农作物的受损等级进行分类评估以及对可能发生的灾害进行预警,指导农户合理的进行农业生产。历史气象数据量庞大,各要素属性众多,而各类农业灾害的发生可能只依赖于一些特定的气候条件要素,如果直接将属性冗余度较高的气象数据用来分析挖掘,不仅会消耗大量的处理时间还会降低准确度,影响农业气象灾害评估的效率。对于农业气象数据,从原始数据到挖掘、获取有价值信息的过程主要涉及五个步骤,包括:数据采集、数据存储、数据预处理、数据挖掘分析和数据可视化。现有技术中,数据预处理和数据挖掘分析的性能均存在差异,不能消除气象数据中的冗余数据,导致农业气象灾害评估准确度低。因此,需要提供一种农业气象数据冗余消除方法,通过消除气象数据中的冗余数据得到核属性数据(核属性数据指不能去掉的数据),能在保证农业气象灾害评估准确度的前提下提升评估速度。
技术实现思路
本专利技术的目的在于提供一种基于信息熵的农业气象数据冗余消除方法及系统,能消除农业气象数据中的冗余数据,能提升对农业气象数据的处理速度和农业气象灾害评估准确度。本专利技术提供的基础方案为:一种基于信息熵的农业气象数据冗余消除方法,包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括 ...
【技术保护点】
1.一种基于信息熵的农业气象数据冗余消除方法,其特征在于:包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,采集的决策数据的集合构成决策信息表;计算互信息量步骤,用于计算条件属性集与决策属性集之间的互信息量,计算决策属性集的信息熵,计算决策属性集与条件属性集的条件熵,根据决策属性集的信息熵、决策属性集与条件属性集的条件熵可得出决策属性集和条件属性集的互信息量;确定相关属性步骤,用于确定相关属性数据,赋值一个核属性数据集R,令属性a属于核属性数据集R在条件属性集中的绝对补集,计算属性a与决策属性集之间的互信息量,判断属性a是否为相关属性:若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,计算核属性数据集R与决策属性集之间的互信息量,获得核属性数据集R与决策属性集之间的不确定性关系:若核属性数据集R与决策属性集之间的互信息量不等于条件属性集与决策属性集之间互信息量,则重复上述确定相关属性步骤;若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策 ...
【技术特征摘要】
1.一种基于信息熵的农业气象数据冗余消除方法,其特征在于:包括:构建决策信息表步骤,用于构建决策信息表,采集决策数据,所述决策数据包括所有对象集合、条件属性集、决策属性集、属性值集以及系统函数,采集的决策数据的集合构成决策信息表;计算互信息量步骤,用于计算条件属性集与决策属性集之间的互信息量,计算决策属性集的信息熵,计算决策属性集与条件属性集的条件熵,根据决策属性集的信息熵、决策属性集与条件属性集的条件熵可得出决策属性集和条件属性集的互信息量;确定相关属性步骤,用于确定相关属性数据,赋值一个核属性数据集R,令属性a属于核属性数据集R在条件属性集中的绝对补集,计算属性a与决策属性集之间的互信息量,判断属性a是否为相关属性:若属性a是相关属性,则令核属性数据集R=R∪{a};确定核属性数据集步骤,用于确定核属性数据集R的值,计算核属性数据集R与决策属性集之间的互信息量,获得核属性数据集R与决策属性集之间的不确定性关系:若核属性数据集R与决策属性集之间的互信息量不等于条件属性集与决策属性集之间互信息量,则重复上述确定相关属性步骤;若核属性数据集R与决策属性集之间的互信息量等于条件属性集与决策属性集之间互信息量,则输出核属性数据集R。2.根据权利要求1所述的一种基于信息熵的农业气象数据冗余消除方法,其特征在于:条件属性集与决策属性集之间的互信息量为I(C,D),I(C,D)是在已知决策属性集D的具体值之后,将条件属性集C值的冗余数据去除,具体的计算公式为I(C,D)=H(D)-H(D|C)。3.根据权利要求2所述的一种基于信息熵的农业气象数据冗余消除方法,其特征在于:去除冗余数据的具体步骤为:S01:计算决策信息表DT中条件属性集C与决策属性集D的条件熵H(D|C);S02:分别计算决策属性集D与条件属性集C中的每个条件属性ai的条件熵H(D|ai)(ai∈C);S03:令N为约简集合,令N=C,以H(D|ai)递减的顺序排列条件属性ai;S04:计算去除条件属性ai后相应的条件熵H(D|N-{ai}),条件属性ai的判断:若H(D|C)=H(D|N-{ai}),则该条件属性ai为冗余数据,删除该条件属性ai,令N=N-{ai};若H(D|C)≠H(D|N-{ai}),则保留该条件属性ai,令N=N-{ai};S05:循环S4步骤,将条件属性集C中每个条件属性ai得到判断后,得到互信息量I(C,D)。4.根据权利要求3所述的一...
【专利技术属性】
技术研发人员:简宋全,何佳宁,赵轩,秦于钦,张清瑞,
申请(专利权)人:广东精点数据科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。