【技术实现步骤摘要】
数据集的质量评估方法、装置、设备以及存储介质
本申请涉及计算机
,具体涉及大数据
,尤其涉及数据集的质量评估方法、装置、设备以及存储介质。
技术介绍
在机器学习任务中,数据集的质量优劣对模型训练的结果影响很大,在一定程度上,数据质量决定模型的上限。目前对于数据集质量的评估,往往通过使用者根据自己对数据的理解,开发脚本对数据集进行简单的清洗,甚至使用者缺乏对数据质量的了解,就直接使用数据集进行模型训练,导致模型效果差。
技术实现思路
为了解决上述
技术介绍
部分提到的一个或多个技术问题,本申请实施例提供了数据集的质量评估方法、装置、设备以及存储介质。第一方面,本申请实施例提供了数据集的质量评估方法,包括:对数据集进行第一诊断,生成第一诊断报告,其中,所述第一诊断包括至少一条评估规则,所述评估规则表征数据集中样本的质量维度;对数据集进行第二诊断,生成第二诊断报告,其中,所述第二诊断包括至少一条评估规则,所述评估规则表征数据集中样本特征的质量维度;基于所述第一诊断报告和/或所述第二诊断报告,评估 ...
【技术保护点】
1.一种数据集的质量评估方法,包括:/n对数据集进行第一诊断,生成第一诊断报告,其中,所述第一诊断包括至少一条评估规则,所述评估规则表征数据集中样本的质量维度;/n对数据集进行第二诊断,生成第二诊断报告,其中,所述第二诊断包括至少一条评估规则,所述评估规则表征数据集中样本特征的质量维度;/n基于所述第一诊断报告和/或所述第二诊断报告,评估所述数据集的质量。/n
【技术特征摘要】
1.一种数据集的质量评估方法,包括:
对数据集进行第一诊断,生成第一诊断报告,其中,所述第一诊断包括至少一条评估规则,所述评估规则表征数据集中样本的质量维度;
对数据集进行第二诊断,生成第二诊断报告,其中,所述第二诊断包括至少一条评估规则,所述评估规则表征数据集中样本特征的质量维度;
基于所述第一诊断报告和/或所述第二诊断报告,评估所述数据集的质量。
2.根据权利要求1所述的方法,所述样本的质量维度包括样本数量、样本缺失、样本漂移、样本冲突、样本重复中的至少一种。
3.根据权利要求1所述的方法,所述样本特征的质量维度包括特征漂移、特征缺失、特征覆盖、特征值权重、特征稳定性、特征重要性中的至少一种。
4.根据权利要求1所述的方法,其中,所述第一诊断报告至少包括数据集中样本数量漂移的第一离散系数;以及所述基于所述第一诊断报告,评估所述数据集的质量,包括:
将所述第一离散系数高于第一预定阈值的样本作为质量不合格的样本。
5.根据权利要求1所述的方法,其中,所述第二诊断报告至少包括数据集中样本特征漂移的第二离散系数;以及所述基于所述第二诊断报告,评估所述数据集的质量,包括:
将所述第二离散系数高于第二预定阈值的样本特征作为质量不合格的样本特征。
6.根据权利要求1所述的方法,其中,所述对数据集进行第二诊断,生成第二诊断报告还包括:
若基于所述第一诊断报告对数据集进行质量评估的结果为合格,对数据集进行第二诊断,生成第二诊断报告。
7.根据权利要求1所的方法,所述方法还包括:
对数据集中的样本进行区分,得到数据集中的正样本和负样本。
8.一种数据集的质量评估装置,其特征在于,所述装置包括:
第一诊断模块,被配置为对数据集进行第一诊断,生成第一诊断报告,其中,所述第一诊断包括至少一条评估规则,所述评估规则表征数据集中样本的质量维度;
第...
【专利技术属性】
技术研发人员:许顺楠,甘露,陈亮辉,方军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。