The present invention provides a method and apparatus for water bloom early warning based on CART decision tree, select the K effect of bloom factor, correlation coefficient between the K factors and the default decision attributes were calculated; selecting T influence factors which influence the condition attributes of water bloom, wherein T is an integer of 0 and less than or equal to K is greater than the boundary point theorem; Fayyad based on the GINI data set for each coefficient gets the corresponding conditional attribute; the data set is: a parameter from the different water environment detected in the data set; according to each attribute segmentation point determines the GINI number; according to the segmentation and the correlation coefficient recursive construction of decision tree; the decision tree based on water bloom early warning. The method of the invention solves the problems that the traditional CART decision tree model has the problems of long running time and insufficient prediction accuracy, and can effectively predict the water bloom of the water body, and the prediction efficiency is high.
【技术实现步骤摘要】
基于CART决策树的水华预警方法和装置
本专利技术涉及水环境保护
,具体地,涉及基于CART决策树的水华预警方法和装置。
技术介绍
由于大量城镇污水和工农业废水流入江、河、湖泊等水体,使得水体的污染负荷不断增加,造成水华事件频发。为了更好的对富营养化的水体进行监测和管理,许多研究者提出了通过建立水华预警模型来对水体的水华进行预测。决策树(ClassificationAndRegressionTree,CART)是1984年由Breiman、Friedman、Olshen、Stone提出的算法。CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,其中,GINI系数是度量数据分区或者是样本集E的不纯程度,GINI系数越小则划分越合理。CART算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。CART决策树既可以用来做分类树也可以用来做回归树。但是,传统的CART算法存在着计算量大和运行时间长的问题。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于CART决策树的水华预警方法和装置。第一方面,本专利技术提供一种基于CART决策树的水华预警方法,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性(叶绿素a浓度)之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基 ...
【技术保护点】
一种基于CART决策树的水华预警方法,其特征在于,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。
【技术特征摘要】
1.一种基于CART决策树的水华预警方法,其特征在于,包括:选取K个影响水华的影响因子,分别计算所述K个影响因子与预设的决策属性之间的相关系数;其中,K为大于0的整数;根据所述相关系数的值从K个影响因子中选取T个影响因子,所述T个影响因子作为影响水华的条件属性,其中T为大于0且小于等于K的整数;基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数;其中,所述数据集是指:从不同水体环境中检测到的参数所构成的数据集合;根据所述GINI系数确定每个条件属性的分割点;根据所述分割点和相关系数递归构建决策树;基于所述决策树对水体进行水华预警。2.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述K个影响因子与预设的决策属性之间的相关系数的计算公式如下:式中:表示第i个条件属性Ai与预设的决策属性B之间的相关系数,Ai表示第i个条件属性,i为大于等于1且小于等于K的整数,B表示预设的决策属性,Cov(Ai,B)表示Ai与B的协方差,D(Ai)表示Ai的方差,D(B)表示B的方差。3.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述基于Fayyad边界点判定定理,获取数据集中每个条件属性对应的GINI系数,包括:假设根据任一条件属性A将所述数据集E划分为两个子集E1和E2,则所述条件属性A对应数据集E的GINI系数的计算公式如下:其中:式中:GINIA(E)表示E在A属性下的基尼指数,表示子集E1在集合E中的比例,GINI(E1)表示E1的基尼指数,表示子集E2在集合E中的比例,GINI(E2)表示E2的基尼指数,GINI(E)表示E的基尼指数,pi表示E中元组属于决策属性最终分类结果的概率,m表示决策属性数据集分类的个数。4.根据权利要求1所述的基于CART决策树的水华预警方法,其特征在于,所述根据所述GINI系数确定每个条件属性的分割点,包括:根据GINI系数最小原则来为每个条件属性获取分割点,所述GINI系数最小原则是指当基于任一条件属性将所述数据集分割成两个子集时,使得所述条件属性关于所述数据集的GINI系数最小;将所述GINI系数最小时的分割点作为所述条件属性的分割点。5.根据权利要求1-4中任意...
【专利技术属性】
技术研发人员:刘云翔,吴浩,徐琛,李晓丹,
申请(专利权)人:上海应用技术大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。