基于机器学习的数据修复方法、装置及计算机设备制造方法及图纸

技术编号：31317588 阅读：16 留言：0更新日期：2021-12-12 23:57

本发明专利技术公开了一种基于机器学习的数据修复方法、装置及计算机设备，主要在于能够提高修复后的数据集的数据质量，保证修复后的数据集对于后续的分类任务有切实的帮助，从而能够提高分类模型的分类精度。其中方法包括：获取用于模型训练的待修复数据集；对所述待修复数据集进行错误检测，根据检测结果对所述待修复数据集进行修复，生成所述待修复数据集对应的多个候选修复集；构建所述多个候选修复集分别对应的预设分类模型，并利用测试数据集分别对多个所述预设分类模型进行测试，得到多个所述预设分类模型分别对应的测试结果；根据所述测试结果，从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。本发明专利技术涉及人工智能和数字医疗领域。能和数字医疗领域。能和数字医疗领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的数据修复方法、装置及计算机设备

[0001]本专利技术涉及人工智能领域，尤其是涉及一种基于机器学习的数据修复方法、装置及计算机设备。

技术介绍

[0002]随着人工智能的飞速发展，数据分类已经成为计算机科学领域当之无愧最火热的机器学习任务，具有极其广泛的实际需求和应用场景。随着数据量的急速增长，产生了大量的脏数据，气严重阻碍了分类模型的学习和预测，因此有效地修复和清洗脏数据对于分类模型的训练有重要意义。
[0003]目前，通常是单独对脏数据进行清洗和修复。然而，这种方式只是考虑对脏数据的修复，并没有考虑修复后的数据对于分类任务的影响，从而导致修复后的数据质量较低，对于分类任务没有切实的帮助。

技术实现思路

[0004]本专利技术提供了一种基于机器学习的数据修复方法、装置及计算机设备，主要在于能够提高修复后的数据集的数据质量，保证修复后的数据集对于后续的分类任务有切实的帮助，从而能够提高分类模型的分类精度。
[0005]根据本专利技术的第一个方面，提供一种基于机器学习的数据修复方法，包括：
[0006]获取用于模型训练的待修复数据集；
[0007]对所述待修复数据集进行错误检测，根据检测结果对所述待修复数据集进行修复，生成所述待修复数据集对应的多个候选修复集；
[0008]构建所述多个候选修复集分别对应的预设分类模型，并利用测试数据集分别对多个所述预设分类模型进行测试，得到多个所述预设分类模型分别对应的测试结果；
[0009]根据所述测试结果...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据修复方法，其特征在于，包括：获取用于模型训练的待修复数据集；对所述待修复数据集进行错误检测，根据检测结果对所述待修复数据集进行修复，生成所述待修复数据集对应的多个候选修复集；构建所述多个候选修复集分别对应的预设分类模型，并利用测试数据集分别对多个所述预设分类模型进行测试，得到多个所述预设分类模型分别对应的测试结果；根据所述测试结果，从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。2.根据权利要求1所述的方法，其特征在于，所述对所述待修复数据集进行错误检测，根据检测结果对所述待修复数据集进行修复，生成所述待修复数据集对应的多个候选修复集，包括：对所述待修复数据集中的多组医疗数据进行错误检测，确定所述多组医疗数据中存在冲突的目标医疗数据；基于所述目标医疗数据，确定所述待修复数据集对应的多种修复方案，并利用所述多种修复方案分别对所述待修复数据集进行修复，生成所述待修复数据集对应的多个候选修复集。3.根据权利要求2所述的方法，其特征在于，所述多组医疗数据中的任意一组医疗数据包括样本患者在多个属性维度下的属性数据，所述对所述待修复数据集中的多组医疗数据进行错误检测，确定所述多组医疗数据中存在冲突的目标医疗数据，包括：判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束；若不满足所述函数依赖约束，则确定所述任意两组医疗数据为目标医疗数据；或者判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束；若不满足所述距离依赖约束，则确定所述任意两组医疗数据为目标医疗数据；或者判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束；若不满足所述拒绝依赖约束，则确定所述任意两组医疗数据为目标医疗数据。4.根据权利要求3所述的方法，其特征在于，所述判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束，包括：当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时，判定所述样本患者在第二属性维度下的属性数据是否相等；若所述样本患者在所述第二属性维度下的属性数据不相等，则确定所述任意两组医疗数据之间不满足所述函数依赖约束；所述若不满足所述函数依赖约束，则确定所述任意两组医疗数据为目标医疗数据，包括：若所述任意两组医疗数据之间不满足所述依赖函数约束，则确定所述任意两组医疗数据为目标医疗数据，并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据；所述基于所述目标医疗数据，确定所述待修复数据集对应的多种修复方案，包括：基于所述目标医疗数据和所述目标属性数据，确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案。
5.根据权利要求3所述的方法，其特征在于，所述判...

【专利技术属性】
技术研发人员：徐啸，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人