一种基于信息熵值的数据质量评价方法技术

技术编号:26420558 阅读:38 留言:0更新日期:2020-11-20 14:16
本发明专利技术提出了一种基于信息熵值的数据质量评价方法,所述方法在数据进行建模之前,对数据集进行评估,包括:对建模所需的数据集进行数据量评估,获得数据量评估得分;在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分;对建模数据中的因变量进行评估,获得因变量评估得分;利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。

【技术实现步骤摘要】
一种基于信息熵值的数据质量评价方法
本专利技术提出了一种基于信息熵值的数据质量评价方法,属于数据处理

技术介绍
实现智能制造的转型升级,其中一个重要的应用就是工厂的品质智能化分析,通过采集制造业企业采集的数据,对数据进行有效的分析挖掘,构建模型对生产进行监控是目前制造业企业智能化的一个重要应用。而在对数据进行分析之前,使用者往往遇到数据样本是否满足建模要求的问题,分析人员通常的做法是通过模型构建,模型评估,最终模型的准确率来评估数据质量是否满足要求。而通常制造业企业对于数采和数据分析通常都是分离的,进行数据采集的工作人员无法及时对数据进行评估,而到了建模阶段才发现数据质量的不足,导致数据采集工作需要附加新的工作。这就导致现有的数据分析软件通常使用模型评分的方式来评价模型的构建好坏,但该种方式会受到多种因素的影响:1.受到建模数据质量的影响,当建模数据质量不佳时,模型评分将受到显著影响,并且该方法无法判断建模数据不佳的具体原因。2、受到建模算法的影响,不同的建模算法也会导致模型评分的波动。3受到建模参数的影响。>专利技术内本文档来自技高网...

【技术保护点】
1.一种基于信息熵值的数据质量评价方法,其特征在于,所述方法在数据进行建模之前,对数据集进行评估,包括:/n对建模所需的数据集进行数据量评估,获得数据量评估得分;/n在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分;/n对建模数据中的因变量进行评估,获得因变量评估得分;/n利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。/n

【技术特征摘要】
1.一种基于信息熵值的数据质量评价方法,其特征在于,所述方法在数据进行建模之前,对数据集进行评估,包括:
对建模所需的数据集进行数据量评估,获得数据量评估得分;
在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分;
对建模数据中的因变量进行评估,获得因变量评估得分;
利用所述数据量评估得分、因子评估得分和因变量评估得分获得数据集的综合评分,以所述综合评分为依据,对数据集质量进行评判,获得数据集质量的评判结果。


2.根据权利要求1所述方法,其特征在于,所述针对数据分析的数据量进行数据量评估,获得数据量评估得分,包括:
检测数据集中的样本量,对样本量进行评估,获得样本量评估结果;
根据样本量的具体数量,对数据集中的因子量进行评估,获得因子量评估结果;
综合样本量评估结果和因子量得分结果,获取所述数据量评估得分。


3.根据权利要求2所述方法,其特征在于,样本量与因子量的比值范围为:样本量:因子量=5:1——25:1。


4.根据权利要求1所述方法,其特征在于,在数据量评估结果的基础上,对数据集中的因子有效性进行评估,获得因子评估得分,包括:
利用熵值法计算衡量因子信息量,获得因子信息量评估结果;
针对单个因子,利用皮尔森相关系数方式或者互信息方式对所述单个因子的有效性进行评估,获得因子有效性评估结果;
针对多个因子,利用复相关性指标对所述多个因子共同作用对因变量的解释效用进行评估,获得因子综合有效性评估结果;当复相关性指标绝对值超过第一阈值时,确定所述多个因子共同的解释能力较好;当复相关性指标绝对值小于第二阈值时,确定所述多个因子共同的解释能力不佳;
利用数据集中的因子的方差膨胀系数VIF来衡量自变量总是否需存在高线性相关的因子,当VIF大于膨胀系数阈值10时,确定所述因子为共线性因子,并剔除所述共线性因子,以此实现对因子冗余程度的评估,并获得因子冗余程度评估结果;
综合因子信息量评估结果、因子有效性评估结果、因子综合有效性评估结果和因子冗余程度评估结果获得因子评估得分。


5.根据权利要求4所述方法,其特征在于,所述利用熵值法计算衡量因子信息量,获得因子信息量评估结果,包括:
针对连续型因子,采用信息熵阈值的方式进行信息序列判断,判断方式包括:
甄别当信息熵阈值小于同等长度随机序列的信息熵10%时,确定所述连续型因子为低信息序列,或者,
根据变异系数大小判断所述因子序列是否为低信息序列,当所述变异系数小于0.5%时,确定所述连续型因子为低信息序列;
针对离散型因子,采用类别集中度来评判所述离散型因子是否为低信息序列,当离散型因子中某个子类别超过总样本量85%时,判定为低信息序列;当低信息序列达到90%以上时,判定所述数据集质量较差。


6.根据权利要求4所述方法,其特征在于,所述利用皮尔森相关系数方...

【专利技术属性】
技术研发人员:翟伟辰何军
申请(专利权)人:格创东智深圳科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1