基于人工智能快速决策树算法的多表融合数据清洗方法技术

技术编号：36895885 阅读：16 留言：0更新日期：2023-03-15 22:31

本发明专利技术公开了一种基于人工智能快速决策树算法的多表融合数据清洗方法，主要是通过训练样本集，建立目标变量关于输入变量的分类预测模型，推理出相应目标的分类或取值，利用信息熵的原理，选择信息增益最大的作为分类原则。本发明专利技术改进决策树算法构造的决策树所用的计算时间比未改进算法构造的决策树所用的计算时间少，本发明专利技术在计算机上快速运算，改进决策树算法提高了决策树构造的效率，计算量也大大减少。大减少。大减少。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能快速决策树算法的多表融合数据清洗方法

[0001]本专利技术属于数据清洗
，具体涉及一种基于人工智能快速决策树算法的多表融合数据清洗方法。

技术介绍

[0002]随着计算机的快速发展，数据库技术与日俱增，人们在各个方面都会面临海量的数据。在整合水、电、气等过程中也会产生大量的数据，这些大量数据的背后蕴藏着非常丰富的资源，对信息进行采集、整合、分析和发布，如何高效的实现对数据的处理工作，如何高效的利用这些数据为人们服务，也已经成为了焦点之一。
[0003]基于这些大量的数据，数据分析显得尤为重要，数据清洗是数据分析的第一步。对于数据清洗的方法，人们也开展了较多的研究，例如中国专利申请号为CN201510742638.7提出了一种基于函数依赖的数据清洗方法，包括：对原始数据进行数据转换，以将其不同类型的属性全部转换为数值型属性；对于数据转换后的原始数据，提取其属性的自依赖函数特征；对于数据转换后的原始数据，提取其属性之间的互依赖函数；根据自依赖函数特征和互依赖函数确定需要进行清洗及待清洗的属性及样本，并根据该属性及样本形成相关清洗决策依据，判断待清洗的属性对象是采用自依赖函数清洗还是采用互依赖函数进行清洗，若采用自依赖函数清洗，则将不符合条件的样本根据自依赖函数确定的多项式进行校准修复，并加上白噪声作为随机扰动。该专利能够解决大数据中“脏数据”问题，为后续的大数据分析挖掘提供高质量的数据。又如中国专利申请号为CN202010872303.8提出了一种基于神经网络的人工智能数据清洗方法，包括与待清...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能快速决策树算法的多表融合数据清洗方法，其特征在于：通过训练样本集，建立目标变量关于输入变量的分类预测模型，推理出相应目标的分类或取值；利用信息熵的原理，选择信息增益最大的作为分类原则；具体包括下列步骤：步骤1：假设生成向量空间中的正例集和反例集，其大小分别为P和Q；用来生成向量空间中的正例集和反例集的数据应该满足以下要求：(1)向量空间H中对任意例子的分类概率同H中正反例的概率一致；(2)决策树能对结果做出正确分类判断的信息量为：步骤2：以其中某一属性X作为决策树的根，X具有N个值(N1,N2…
N
n
)，将H分为n个子集(H1，H2，
…
,H
n
)，假设向量空间H
i
中含有P
i
个正例和Q
i
个反例；步骤3：以其中某一属性X作为决策树的根，并具有m个值(m1,m2,m3…...

【专利技术属性】
技术研发人员：黄升平，徐秀峰，梅明顺，李雪玲，谢卓辰，
申请(专利权)人：广西电网有限责任公司崇左供电局，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人