一种基于农业大数据的异常值检测方法技术

技术编号:20364872 阅读:23 留言:0更新日期:2019-02-16 17:25
本发明专利技术涉及农业异常值检测领域,具体涉及一种基于农业大数据的异常值检测方法,包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并整合成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,直到达到终止条件;构建孤立森林算法模型步骤,初始化孤立森林中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,所有iTree树的集合构成孤立森林算法模型;异常值判断步骤,计算异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。本发明专利技术将孤立森林算法模型应用到农业大数据的异常值检测,能有效地提高农业大数据的异常值的检测效果。

【技术实现步骤摘要】
一种基于农业大数据的异常值检测方法
本专利技术涉及农业异常值检测领域,具体涉及一种基于农业大数据的异常值检测方法。
技术介绍
信息化管理是农业经济发展的必然趋势,是将传统农业转变为现代化农业的必经过程。随着农业信息化的发展,农业大数据正在成为大数据应用的又一重点。农业大数据是跨专业和跨行业的数据分析和挖掘,将大数据与农业领域的相关科学研究相结合,可以为政府决策、农业科研和涉农企业发展等提供新方法和新思路,具有广阔的发展前景。异常值是指在一组测定值中与平均值的偏差超过两倍标准差的测定值,在处理数据时应剔除异常值。农业大数据的异常值检测对于实现农业生产监管和提高农业生产决策水平具有重要意义,适时对农业大数据的异常值进行检测,一方面可以避免我们将其当作正常数据去分析处理,导致错误的决策判断,另一方面,可以分析异常值出现的原因,采取相应的措施,降低损失,提升经济效益。现有技术中农业大数据的异常值检测方法主要有:统计分析法,是运用数学方式建立数学模型,对通过调查获取的各种数据及资料进行数理统计和分析,形成定量的结论,其定额准确性和可靠性差,且反映的是历史情况而不是现实条件变化的影响,其异常值检测效果不好;基于密度和距离的异常值检测方法,时间复杂度高、计算开销大,而且是监督学习算法,对于大量农业数据的异常值检测效率很低。孤立森林算模型法主要用于网络安全中的攻击监测和异常流量分析、电力调度流数据分析以及金融的欺诈行为挖掘,其处理速度快,还具有线性时间复杂度。与网络、电力以及金融流量数据相比,农业大数据具有高维、海量、数据类型复杂的特点,目前,该算法模型在农业大数据中还没有实践应用。
技术实现思路
本专利技术的目的在于提供一种基于农业大数据的异常值检测方法,采用分布式系统结合孤立森林算法模型对农业大数据的异常值进行检测,解决了现有技术中异常值检测效果不好的问题。本专利技术的基础方案为:一种基于农业大数据的异常值检测方法,包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。本专利技术的有益效果:1、现有技术中采用基于密度和距离的异常值检测方法来检测农业大数据的异常值,该方法的时间复杂度高、计算开销大且处理海量数据的效率很低;本专利技术的农业大数据异常值检测方法结合了孤立森林算法模型,在进行异常值检测时能减少异常的掩盖和淹没效应,还具有线性的时间复杂度,而且不需要计算距离或者密度来寻找异常数据,能有效处理高维数据和海量数据,与现有技术相比,本专利技术具有时间复杂度可控、计算开销低和能有效处理高维数据和海量数据的优点。2、现有技术中采用统计分析法来检测农业大数据的异常值,该方法的准确性和可靠性差,且反映的是历史情况而不是现实条件变化的影响;本专利技术的农业大数据异常值检测方法结合了孤立森林算法模型,在进行异常值检测时会结合孤立森林算法模型中的多棵iTree树实现异常值的判别,与现有技术相比,本专利技术的抗干扰能力强,准确性更高。3、现有技术中采用的统计分析法、基于密度和距离的异常值检测方法均为监督学习法,进行异常数据检测时需要大量的带标签数据;本专利技术的农业大数据异常值检测方法为无监督学习算法,不需要打标签,与现有技术相比,本专利技术不仅省去了人工识别标注数据的工作量,也能避免农业大数据先验知识缺乏的不足。4、本专利技术的农业大数据异常值检测方法可用于分布式系统加速运算,可以很好的处理农业高维数据和大数据,更符合对农业大数据处理实时性的要求,进行异常值检测时响应速度能更快。进一步,所述构建iTree树步骤包括:选取根节点步骤,从训练数据集中随机选取m个样本点作为子样本集和iTree树的根节点;选取切割点步骤,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;维度分类步骤,以切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;构建步骤,在子节点中递归选取切割点步骤和维度分类步骤,不断构造新的子节点,达到iTree树构建的终止条件时停止构造子节点,iTree树构建成功。进一步,所述iTree树构建的终止条件包括:传入的数据集只有一条记录、传入的数据集为多条一样的记录或树的深度达到限定的深度log2n。进一步,异常值判断步骤包括:计算深度步骤,将测试数据x遍历每棵iTree树,得到其在每棵iTree树上的深度h(x);计算平均深度步骤,将测试数据x在每棵iTree树上所处的深度h(x)进行平均值计算,得到平均深度E(h(x));计算异常分值步骤,通过公式计算得到测试数据x的异常分值s(x),其中H(k)=ln(k)+ξ,n为数据集中样本点个数,ξ为欧拉常数;判断步骤,通过测试数据x的异常分值s(x)判断测试数据x是否为异常值。进一步,测试数据x在iTree树的深度h(x)计算公式为:h(x)=h0(x)+c(T.size),其中,T.size为叶节点的记录数量,进一步,判断测试数据x是否为异常值的具体方法为:利用测试数据x的异常分值s(x)进行判断,若异常分值s(x)的取值接近1,则测试数据x被判定为异常值;若异常分值s(x)的取值接近0,则测试数据x被判定为非异常值;若异常分值s(x)的取值在0.5附近,则不能判断是否为异常值。附图说明图1为本专利技术一种基于农业大数据的异常值检测方法实施例一的流程图;图2为本专利技术实施例一中iTree树构建步骤的流程图;图3为本专利技术实施例一中异常值判断步骤的流程图;图4为本专利技术一种基于农业大数据的异常值检测系统实施例二的结构框图。具体实施方式下面通过具体实施方式进一步详细说明:实施例一:如图1所示:一种基于农业大数据的异常值检测方法,包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树本文档来自技高网
...

【技术保护点】
1.一种基于农业大数据的异常值检测方法,其特征在于:包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。

【技术特征摘要】
1.一种基于农业大数据的异常值检测方法,其特征在于:包括:数据采集步骤,采集农业生产数据、农业土壤数据和农业气象资源数据,并通过抽样训练的方法对数据进行训练,训练后得到若干棵隔离树,隔离树的集合构成训练数据集;构建iTree树步骤,从训练数据集中选取m个样本点,不断随机选取分裂属性和分裂点,达到终止条件时完成iTree树的构建;构建孤立森林算法模型步骤,初始化孤立森林算法模型中的iTree树的数目t和构建iTree树时抽取的子样本集m,进入循环构建iTree树的步骤,构建相互独立的iTree树,构建的iTree树均部署在分布式系统上,当iTree树的数目达到预设iTree树的数目t时,停止构建iTree树,所有iTree树的集合构成孤立森林算法模型;异常值判断步骤,将测试数据x遍历孤立森林算法模型中的每棵iTree树,得到其在每棵iTree树中所处的深度h(x),计算测试数据x的平均深度E(h(x))和异常分值s(x),通过异常分值s(x)判断测试数据x是否为异常值。2.根据权利要求1所述的一种基于农业大数据的异常值检测方法,其特征在于:所述构建iTree树步骤包括:选取根节点步骤,从训练数据集中随机选取m个样本点作为子样本集和iTree树的根节点;选取切割点步骤,随机选定一个维度,并在当前节点数据中随机产生一个该维度的切割点p;维度分类步骤,以切割p点为基准,把节点数据指定维度的大小与切割点p作比较,节点数据指定维度小于切割点p的数据放在当前节点的左子节点,节点数据指定维度大于或等于切割点p的数据放在当前节点的右子节点;构建步骤,在子节点中递...

【专利技术属性】
技术研发人员:简宋全何佳宁赵轩秦于钦张清瑞
申请(专利权)人:广东精点数据科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1