基于人工智能快速决策树算法的多表融合数据清洗方法技术

技术编号:36895885 阅读:16 留言:0更新日期:2023-03-15 22:31
本发明专利技术公开了一种基于人工智能快速决策树算法的多表融合数据清洗方法,主要是通过训练样本集,建立目标变量关于输入变量的分类预测模型,推理出相应目标的分类或取值,利用信息熵的原理,选择信息增益最大的作为分类原则。本发明专利技术改进决策树算法构造的决策树所用的计算时间比未改进算法构造的决策树所用的计算时间少,本发明专利技术在计算机上快速运算,改进决策树算法提高了决策树构造的效率,计算量也大大减少。大减少。大减少。

【技术实现步骤摘要】
基于人工智能快速决策树算法的多表融合数据清洗方法


[0001]本专利技术属于数据清洗
,具体涉及一种基于人工智能快速决策树算法的多表融合数据清洗方法。

技术介绍

[0002]随着计算机的快速发展,数据库技术与日俱增,人们在各个方面都会面临海量的数据。在整合水、电、气等过程中也会产生大量的数据,这些大量数据的背后蕴藏着非常丰富的资源,对信息进行采集、整合、分析和发布,如何高效的实现对数据的处理工作,如何高效的利用这些数据为人们服务,也已经成为了焦点之一。
[0003]基于这些大量的数据,数据分析显得尤为重要,数据清洗是数据分析的第一步。对于数据清洗的方法,人们也开展了较多的研究,例如中国专利申请号为CN201510742638.7提出了一种基于函数依赖的数据清洗方法,包括:对原始数据进行数据转换,以将其不同类型的属性全部转换为数值型属性;对于数据转换后的原始数据,提取其属性的自依赖函数特征;对于数据转换后的原始数据,提取其属性之间的互依赖函数;根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本,并根据该属性及样本形成相关清洗决策依据,判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗,若采用自依赖函数清洗,则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复,并加上白噪声作为随机扰动。该专利能够解决大数据中“脏数据”问题,为后续的大数据分析挖掘提供高质量的数据。又如中国专利申请号为CN202010872303.8提出了一种基于神经网络的人工智能数据清洗方法,包括与待清洗数据相连接的拟合与分类模块,所述分类模块包括基础分类和行业领域分类,所述基础分类包括图像、语音、文本、视频,在所述基础分类之上进一步进行行业领域分类,所述行业领域分类包括金融、医疗、安全、多媒体、法律法规、车载、通信等领域,然后对需要清洗的数据进行少量的人工标注,为清洗数据做准备,训练初始模型,初始模型根据上述拟合以及分类模块建立相应的函数曲线,然后利用训练的初始模型预测其余未清洗的数据。该专利可进一步丰富训练集的特征组合,提升模型的泛化能力,模型学习过程中的数据特征越丰富,泛化能力越强,预测模型适用的场景越广。

技术实现思路

[0004]本专利技术的目的在于提供一种基于人工智能快速决策树算法的多表融合数据清洗方法。本专利技术改进决策树算法提高了决策树构造的效率,在计算机上快速运算,计算量也大大减少。
[0005]为了实现上述目的,本专利技术采用了以下技术方案:
[0006]一种基于人工智能快速决策树算法的多表融合数据清洗方法,主要是通过训练样本集,建立目标变量关于输入变量的分类预测模型,推理出相应目标的分类或取值,利用信息熵的原理,选择信息增益最大的作为分类原则;包括下列步骤:
[0007]步骤1:假设生成向量空间中的正例集和反例集,其大小分别为P和Q;
[0008]用来生成向量空间中的正例集和反例集的数据应该满足以下要求:
[0009](1)向量空间H中对任意例子的分类概率同H中正反例的概率一致;
[0010](2)决策树能对结果做出正确分类判断的信息量为
[0011][0012]步骤2:以其中某一属性X作为决策树的根,X具有N个值(N1,N2…
N
n
),将H分为n个子集(H1,H2,

,H
n
),假设向量空间H
i
中含有P
i
个正例和Q
i
个反例;
[0013][0014]步骤3:以其中某一属性X作为决策树的根,并具有m个值(m1,m2,m3…
m
m
),以X为根划分的信息熵为E(X):
[0015][0016]步骤4:以X为根的信息增益是G(X):
[0017]G(X)=I(P,Q)

E(X)
[0018]步骤5:将步骤3中的式子进行变换:
[0019][0020]步骤6:为常量,并且每一步都需要进行计算,则可忽略;E(X)变为:
[0021][0022]步骤7:根据数学上的等价无穷小理论,x无穷小,则ln(1+x)≈x,得:
[0023][0024][0025]步骤8:将上述两式子带入步骤6中得:
[0026][0027]步骤9:信息增益率等于信息增益对分割信息量的比值。若X有n个不同取值的离散属性,划分为n1,n2,n3…
n
n
;分割信息量可变为以下公式:
[0028][0029]步骤10:信息增益率由下式变为:
[0030][0031]步骤11:选择信息增益率最高的属性即为当前节点的分类属性;
[0032]步骤12:当前节点分类属性确定之后,对叶节点递归执行步骤5到步骤10,直到叶节点在分类属性上的信息增益率的取值相同。
[0033]本专利技术技术方案具有以下有益效果:
[0034]本专利技术改进决策树算法构造的决策树与未改进算法构造的决策树有大致相同的分类准确率,但是在相同规模的数据集中,改进决策树算法构造的决策树所用的计算时间比未改进算法构造决策树所用的计算时间少,此算法可以在计算机上快速运算,改进决策树算法提高了决策树构造的效率,计算量也大大减少。
附图说明
[0035]图1是本专利技术的数据流程图。
[0036]图2是决策树结构图
具体实施方式
[0037]下面结合附图对本专利技术作进一步说明。
[0038]实施例1:
[0039]一种基于人工智能快速决策树算法的多表融合数据清洗方法,训练样本集,建立目标变量关于输入变量的分类预测模型,推理出相应目标的分类或取值,利用信息熵的原理,选择信息增益最大的作为分类原则;包括下列步骤:
[0040]步骤1:假设生成向量空间中的正例集和反例集,其大小分别为P和Q;
[0041]用来生成向量空间中的正例集和反例集的数据应该满足以下要求:
[0042](1)向量空间H中对任意例子的分类概率同H中正反例的概率一致;
[0043](2)决策树能对结果做出正确分类判断的信息量为
[0044][0045]步骤2:以其中某一属性X作为决策树的根,X具有N个值(N1,N2…
N
n
),将H分为n个子集(H1,H2,

,H
n
),假设向量空间H
i
中含有P
i
个正例和Q
i
个反例;
[0046][0047]步骤3:以其中某一属性X作为决策树的根,并具有m个值(m1,m2,m3…
m
m
),以X为根划分的信息熵为E(X):
[0048][0049]步骤4:以X为根的信息增益是G(X):
[0050]G(X)=I(P,Q)

E(X)
[0051]步骤5:将步骤3中的式子进行变换本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能快速决策树算法的多表融合数据清洗方法,其特征在于:通过训练样本集,建立目标变量关于输入变量的分类预测模型,推理出相应目标的分类或取值;利用信息熵的原理,选择信息增益最大的作为分类原则;具体包括下列步骤:步骤1:假设生成向量空间中的正例集和反例集,其大小分别为P和Q;用来生成向量空间中的正例集和反例集的数据应该满足以下要求:(1)向量空间H中对任意例子的分类概率同H中正反例的概率一致;(2)决策树能对结果做出正确分类判断的信息量为:步骤2:以其中某一属性X作为决策树的根,X具有N个值(N1,N2…
N
n
),将H分为n个子集(H1,H2,

,H
n
),假设向量空间H
i
中含有P
i
个正例和Q
i
个反例;步骤3:以其中某一属性X作为决策树的根,并具有m个值(m1,m2,m3…...

【专利技术属性】
技术研发人员:黄升平徐秀峰梅明顺李雪玲谢卓辰
申请(专利权)人:广西电网有限责任公司崇左供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1