基于CART决策树的水华预警方法和装置制造方法及图纸

技术编号:16472007 阅读:33 留言:0更新日期:2017-10-28 23:47
本发明专利技术提供了一种基于CART决策树的水华预警方法和装置,选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;选取T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。本发明专利技术中的方法解决了传统的CART决策树模型存在运行时间较长和预测精度不够等问题,能够有效地对水体的水华进行预测,预测效率高。

Water bloom warning method and device based on CART decision tree

The present invention provides a method and apparatus for water bloom early warning based on CART decision tree, select the K effect of bloom factor, correlation coefficient between the K factors and the default decision attributes were calculated; selecting T influence factors which influence the condition attributes of water bloom, wherein T is an integer of 0 and less than or equal to K is greater than the boundary point theorem; Fayyad based on the GINI data set for each coefficient gets the corresponding conditional attribute; the data set is: a parameter from the different water environment detected in the data set; according to each attribute segmentation point determines the GINI number; according to the segmentation and the correlation coefficient recursive construction of decision tree; the decision tree based on water bloom early warning. The method of the invention solves the problems that the traditional CART decision tree model has the problems of long running time and insufficient prediction accuracy, and can effectively predict the water bloom of the water body, and the prediction efficiency is high.

【技术实现步骤摘要】
基于CART决策树的水华预警方法和装置
本专利技术涉及水环境保护
,具体地,涉及基于CART决策树的水华预警方法和装置。
技术介绍
由于大量城镇污水和工农业废水流入江、河、湖泊等水体,使得水体的污染负荷不断增加,造成水华事件频发。为了更好的对富营养化的水体进行监测和管理,许多研究者提出了通过建立水华预警模型来对水体的水华进行预测。决策树(ClassificationAndRegressionTree,CART)是1984年由Breiman、Friedman、Olshen、Stone提出的算法。CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,其中,GINI系数是度量数据分区或者是样本集E的不纯程度,GINI系数越小则划分越合理。CART算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。CART决策树既可以用来做分类树也可以用来做回归树。但是,传统的CART算法存在着计算量大和运行时间长的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于CART决策树的水华预警方法和装置。第一方面,本专利技术提供一种基于CART决策树的水华预警方法,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性(叶绿素a浓度)之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。可选地,所述K个影响因子与预设的决策属性之间的相关系数的计算公式如下:式中:表示第i个条件属性Ai与预设的决策属性B之间的相关系数,Ai表示第i个条件属性,i为大于等于1且小于等于K的整数,B表示预设的决策属性,Cov(Ai,B)表示Ai与B的协方差,D(Ai)表示Ai的方差,D(B)表示B的方差。可选地,所述基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数,包括:假设根据任一条件属性A将所述数据集E划分为两个子集E1和E2,则所述条件属性A对应数据集E的GINI系数的计算公式如下:其中:式中:GINIA(E)表示E在A属性下的基尼指数,表示子集E1在集合E中的比例,GINI(E1)表示E1的基尼指数,表示子集E2在集合E中的比例,GINI(E2)表示E2的基尼指数,GINI(E)表示E的基尼指数,pi表示E中元组属于决策属性最终分类结果的概率,m表示决策属性数据集分类的个数。可选地,所述根据所述GINI系数确定每个条件属性的分割点,包括:根据GINI系数最小原则来为每个条件属性获取分割点,所述GINI系数最小原则是指当基于任一条件属性将所述数据集分割成两个子集时,使得所述条件属性关于所述数据集的GINI系数最小;将所述GINI系数最小时的分割点作为所述条件属性的分割点。可选地,所述根据所述分割点和相关系数递归构建决策树,包括:A1:选取数据集中相关系数最大的条件属性作为第1层的节点;将所述条件属性作为根节点;A2:令N的初始值为1;A3:根据所述N层节点的条件属性对应的分割点确定位于第N+1层的数据子集,所述N+1层的数据子集中相关系数最大的条件属性作为第N+1层的节点;A4:判断位于第N+1层的数据子集是否存在可分割的条件属性,若存在可分割的条件属性,则令N的值自增1,返回执行A3,若不存在可分割的条件属性,则执行A5;A5:生成决策树,结束流程。可选地,还包括:利用代价复杂度剪枝算法对所述决策树进行剪枝,得到简化的决策树。可选地,还包括:基于所述简化的决策树对水体进行水华预警。第二方面,本专利技术提供一种基于CART决策树的水华预警装置,包括:第一选取模块、第二选取模块、获取模块、分割点确定模块、决策树构建模块和预警模块;所述第一选取模块,用于选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数;所述第二选取模块,用于根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;所述获取模块,用于基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;所述分割点确定模块,用于根据所述GINI系数确定每个条件属性的分割点;所述决策树构建模块,用于根据所述分割点和相关系数递归构建决策树;所述预警模块,用于基于所述决策树对水体进行水华预警。可选地,所述分割点确定模块,具体用于:根据GINI系数最小原则来为每个条件属性获取分割点,所述GINI系数最小原则是指当基于任一条件属性将所述数据集分割成两个子集时,使得所述条件属性关于所述数据集的GINI系数最小;将所述GINI系数最小时的分割点作为所述条件属性的分割点。可选地,还包括:剪枝模块,所述剪枝模块,用于利用代价复杂度剪枝算法对所述决策树进行剪枝,得到简化的决策树。与现有技术相比,本专利技术具有如下的有益效果:本专利技术提供的基于CART决策树的水华预警方法和装置,通过计算影响水华的影响因子与预设的决策属性的相关系数来选取出条件属性;并基于Fayyad边界点判定定理来获取每个条件属性的GINI系数,选取GINI系数最小的分割点为所述条件属性的分割点,根据每个条件属性的分割点和相关系数递归生决策树,利用决策树来预警水体水华,本专利技术中的方法解决了传统的CART决策树模型存在运行时间较长和预测精度不够等问题,能够有效地对水体的水华进行预测,预测效率高。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例一提供的基于CART决策树的水华预警方法流程图;图2为本专利技术提供的CART决策树的生成方法流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。图1为本专利技术实施例一提供的基于CART决策树的水华预警方法,如图1所示,本实施例中的方法可以包括:S101、选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数。本实施例中,所述影响水华的影响因子包括:叶绿素a(Chl-a),水温(T),PH,化学需氧量(COD),总氮(TN),总磷(TP),溶解氧(DO),光照(E)等水质、气象因子;所述预设的条件属性包括:总磷(TP),总氮(TN),温度(T),化学需氧量(COD),PH。S102、根据所述相关系数的值从K个影响因本文档来自技高网...
基于CART决策树的水华预警方法和装置

【技术保护点】
一种基于CART决策树的水华预警方法,其特征在于,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。

【技术特征摘要】
1.一种基于CART决策树的水华预警方法,其特征在于,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。2.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述K个影响因子与预设的决策属性之间的相关系数的计算公式如下:式中:表示第i个条件属性Ai与预设的决策属性B之间的相关系数,Ai表示第i个条件属性,i为大于等于1且小于等于K的整数,B表示预设的决策属性,Cov(Ai,B)表示Ai与B的协方差,D(Ai)表示Ai的方差,D(B)表示B的方差。3.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数,包括:假设根据任一条件属性A将所述数据集E划分为两个子集E1和E2,则所述条件属性A对应数据集E的GINI系数的计算公式如下:其中:式中:GINIA(E)表示E在A属性下的基尼指数,表示子集E1在集合E中的比例,GINI(E1)表示E1的基尼指数,表示子集E2在集合E中的比例,GINI(E2)表示E2的基尼指数,GINI(E)表示E的基尼指数,pi表示E中元组属于决策属性最终分类结果的概率,m表示决策属性数据集分类的个数。4.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述根据所述GINI系数确定每个条件属性的分割点,包括:根据GINI系数最小原则来为每个条件属性获取分割点,所述GINI系数最小原则是指当基于任一条件属性将所述数据集分割成两个子集时,使得所述条件属性关于所述数据集的GINI系数最小;将所述GINI系数最小时的分割点作为所述条件属性的分割点。5.根据权利要求1-4中任意...

【专利技术属性】
技术研发人员:刘云翔吴浩徐琛李晓丹
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1