基于决策树模型的预测方法、装置和计算机设备制造方法及图纸

技术编号:30408310 阅读:13 留言:0更新日期:2021-10-20 11:20
本申请涉及人工智能领域,提供一种基于决策树模型的预测方法、装置、计算机设备和存储介质,方法包括:获取每个企业相关的影响特征数据;获取对应的每个企业的类别结果;基于影响特征数据与类别结果建立样本数据集;基于训练数据集训练决策树模型获得初始决策树模型;对初始决策树模型进行剪枝得到最优决策树模型;对最优决策树模型进行精度评估,在评估通过后,将最优决策树模型作为目标决策树模型;将待预测的影响特征数据输入至目标决策树模型内,以输出对应的目标预测类别结果。本申请能够有效地实现了对于企业是否产生环境卫生违法行为的准确预测。本申请还可以应用于区块链领域,上述目标预测类别结果等数据可以存储于区块链上。于区块链上。于区块链上。

【技术实现步骤摘要】
基于决策树模型的预测方法、装置和计算机设备


[0001]本申请涉及人工智能
,具体涉及一种基于决策树模型的预测方法、装置和计算机设备。

技术介绍

[0002]工业园区是一个国家或区域的政府根据自身经济发展的内在要求,通过行政手段划出一块区域,聚集各种生产要素,在一定空间范围内进行科学整合,提高工业化的集约强度,突出产业特色,优化功能布局,使之成为适应市场竞争和产业升级的现代化产业分工协作生产区。
[0003]工业园区内的企业通常存在一定的环境卫生方面的问题,如废气、废水排放、垃圾随意倾倒和堆放、土壤污染等。很多环境卫生违法行为很难发现和排查,也很难预防。现有的排查企业是否产生环境卫生违法行为的方式,通常是由相关政府职能机构的监管人员对企业进行实地执法监督,这样的方式耗时耗力,缺乏智能性。且在政府职能机构进行执法监督后,部分企业仍然可能会出现再次违法的情况。因此,如何实现预测企业是否会产生环境卫生违法行为,成为了当前亟需解决的问题。

技术实现思路

[0004]本申请的主要目的为提供一种基于决策树模型的预测方法、装置、计算机设备和存储介质,旨在解决现有缺乏能够预测企业是否会产生环境卫生违法行为的实现手段的技术问题。
[0005]本申请提出一种基于决策树模型的预测方法,所述方法包括步骤:
[0006]分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;
[0007]获取与各所述影响特征数据分别对应的每个所述企业的类别结果;
[0008]以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;
[0009]基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;
[0010]基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;
[0011]基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;
[0012]若评估通过,将所述最优决策树模型作为目标决策树模型;
[0013]将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一企业。
[0014]可选地,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模
型进行训练,获得训练后的初始决策树模型的步骤,包括:
[0015]分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;
[0016]基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;
[0017]将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;
[0018]获取按照根节点的切分点划分的每个分支下的分支训练数据集;
[0019]分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;
[0020]基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;
[0021]将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;
[0022]判断当前的决策树模型是否满足预设的停止建树条件;
[0023]若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;
[0024]若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。
[0025]可选地,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,包括:
[0026]判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;
[0027]若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;
[0028]若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;
[0029]若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;
[0030]若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;
[0031]若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;
[0032]若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。
[0033]可选地,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,包括:
[0034]基于计算公式计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;
[0035]其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分成的子集D
x
,x=1或2,子集D
x
的样本数量为|D
x
|,假设有K个类别,第k个类别的数量为|C
k
|,则子集D
x
的基尼系数的表达式为:
[0036]可选地,所述基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型的步骤,包括:
[0037]将所述测试数据集中包含的所有数据输入至所述初始决策树模型内,并在所述所有数据进入所述初始决策树模型后,分别计算所述初始决策树模型内每一个节点的损失;
[0038]从所述初始决策树模型最下层的所有拥有子节点的节点开始,依次对每个节点的所有子节点依次遍历裁剪,并计算得到每个节点的新损失;
[0039]将每个节点的新损失与每个节点的损失进行大小比较,得到裁剪前后的损失大小比较结果;
[0040]基于所述损失大小比较结果,对所述初始决策树模型中进行剪枝后损失较小的节点枝本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策树模型的预测方法,其特征在于,包括:分别获取与工业园区内每个企业的环境卫生违法行为相关的影响特征数据;获取与各所述影响特征数据分别对应的每个所述企业的类别结果;以所述影响特征数据作为自变量,以所述类别结果作为因变量,建立样本数据集,并按照预设比例将所述样本数据分为训练数据集、测试数据集与验证数据集;基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型;基于所述测试数据集对所述初始决策树模型进行剪枝,得到对应的多个剪枝后的决策树模型,并基于交叉验证从所有所述剪枝后的决策树模型中选择出最优决策树模型;基于所述验证数据集对所述最优决策树模型进行精度评估,并判断是否评估通过;若评估通过,将所述最优决策树模型作为目标决策树模型;将与目标企业对应的待预测的影响特征数据输入至所述目标决策树模型中,通过所述目标决策树模型输出与所述目标企业对应的目标预测类别结果;其中,所述目标企业为所述工业园区内包含的所有企业中的任意一个企业。2.根据权利要求1所述的基于决策树模型的预测方法,其特征在于,所述基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型的步骤,包括:分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数;基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;基于所有所述第一基尼系数,从所述训练数据集中包含的所有影响特征中筛选出第一基尼系数最小的第一影响特征,以及获取与所述第一影响特征对应的第一特征值;将所述第一影响特征作为所述决策树模型的根节点,并将所述第一特征值作为所述根节点的切分点;获取按照根节点的切分点划分的每个分支下的分支训练数据集;分别计算所述分支训练数据集中每一个影响特征为每一个特征值时所述分支训练数据集的第二基尼系数;基于所有所述第二基尼系数,从所述分支训练数据集中包含的所有影响特征中筛选出第二基尼系数最小的第二影响特征,以及获取与所述第二影响特征对应的第二特征值;将所述第二影响特征作为每个分支的分裂节点,并将所述第二特征值作为分裂节点的切分点;判断当前的决策树模型是否满足预设的停止建树条件;若当前的决策树模型满足所述停止建树条件,将当前的决策树模型作为所述初始决策树模型;若当前的决策树模型不满足所述停止建树条件,返回步骤“获取按照根节点的切分点划分的每个分支下的分支训练数据集”。3.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述判断当前的决策树模型是否满足预设的停止建树条件的步骤,包括:
判断所有所述分裂节点的样本数量是否小于预设的最小数量阈值;若所有所述分裂节点的样本数量小于所述最小数量阈值,判定当前的决策树模型满足停止建树条件;若所有所述分裂节点的样本数量不小于所述最小数量阈值,判断当前的决策树模型的高度是否达到了预设的最大高度阈值;若当前的决策树模型的高度达到了所述最大高度阈值,判定当前的决策树模型满足停止建树条件;若当前的决策树模型的高度未达到所述最大高度阈值,判断所有所述分裂节点的数量是否达到了预设的最大数量阈值;若所有所述分裂节点的数量达到了所述最大数量阈值,判定当前的决策树模型满足停止建树条件;若所有所述分裂节点的数量未达到所述最大数量阈值,判定当前的决策树模型不满足停止建树条件。4.根据权利要求2所述的基于决策树模型的预测方法,其特征在于,所述分别计算所述训练数据集中每一个影响特征为每一个特征值时所述训练数据集的第一基尼系数的步骤,包括:基于计算公式计算所述训练数据集中影响特征A的取值为特征值a的条件下训练数据集的基尼系数;其中,所述影响特征A为所述训练数据集中包含的所有影响特征中的任意一个影响特征,Gini()为基尼系数,D为训练数据集,Gini(D,A)为在影响特征A的取值为特征值a的条件下训练数据集D的基尼系数,D1、D2分别为训练数据集被特征值a分成的两个子集,|D1|为子集D1的样本数量,|D2|为子集D2的样本数量,|D|为训练数据集D的样本数量,Gini(D1)为子集D1的基尼系数,Gini(D2)为子集D2的基尼系数;其中,对于由训练数据集分...

【专利技术属性】
技术研发人员:林剑
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1