基于机器学习的数据修复方法、装置及计算机设备制造方法及图纸

技术编号:31317588 阅读:16 留言:0更新日期:2021-12-12 23:57
本发明专利技术公开了一种基于机器学习的数据修复方法、装置及计算机设备,主要在于能够提高修复后的数据集的数据质量,保证修复后的数据集对于后续的分类任务有切实的帮助,从而能够提高分类模型的分类精度。其中方法包括:获取用于模型训练的待修复数据集;对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。本发明专利技术涉及人工智能和数字医疗领域。能和数字医疗领域。能和数字医疗领域。

【技术实现步骤摘要】
基于机器学习的数据修复方法、装置及计算机设备


[0001]本专利技术涉及人工智能领域,尤其是涉及一种基于机器学习的数据修复方法、装置及计算机设备。

技术介绍

[0002]随着人工智能的飞速发展,数据分类已经成为计算机科学领域当之无愧最火热的机器学习任务,具有极其广泛的实际需求和应用场景。随着数据量的急速增长,产生了大量的脏数据,气严重阻碍了分类模型的学习和预测,因此有效地修复和清洗脏数据对于分类模型的训练有重要意义。
[0003]目前,通常是单独对脏数据进行清洗和修复。然而,这种方式只是考虑对脏数据的修复,并没有考虑修复后的数据对于分类任务的影响,从而导致修复后的数据质量较低,对于分类任务没有切实的帮助。

技术实现思路

[0004]本专利技术提供了一种基于机器学习的数据修复方法、装置及计算机设备,主要在于能够提高修复后的数据集的数据质量,保证修复后的数据集对于后续的分类任务有切实的帮助,从而能够提高分类模型的分类精度。
[0005]根据本专利技术的第一个方面,提供一种基于机器学习的数据修复方法,包括:
[0006]获取用于模型训练的待修复数据集;
[0007]对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
[0008]构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
[0009]根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
[0010]根据本专利技术的第二个方面,提供一种基于机器学习的数据修复装置,包括:
[0011]获取单元,用于获取用于模型训练的待修复数据集;
[0012]修复单元,用于对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
[0013]测试单元,用于构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
[0014]筛选单元,用于根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
[0015]根据本专利技术的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
[0016]获取用于模型训练的待修复数据集;
[0017]对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
[0018]构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
[0019]根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
[0020]根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
[0021]获取用于模型训练的待修复数据集;
[0022]对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;
[0023]构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;
[0024]根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。
[0025]本专利技术提供的一种基于机器学习的数据修复方法、装置及计算机设备,与目前单独对脏数据进行清洗和修复的方式相比,本专利技术能够获取用于模型训练的待修复数据集;并对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;与此同时,构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;最终根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集,由此通过将数据修复任务与分类模型训练任务相结合,两者相互指导,能够筛选出最有利于分类任务的目标修复集,即数据质量最高的修复集,进而利用该目标修复集构建预设分类模型,能够提高分类模型的分类精度。
附图说明
[0026]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0027]图1示出了本专利技术实施例提供的一种基于机器学习的数据修复方法流程图;
[0028]图2示出了本专利技术实施例提供的另一种基于机器学习的数据修复方法流程图;
[0029]图3示出了本专利技术实施例提供的一种基于机器学习的数据修复装置的结构示意图;
[0030]图4示出了本专利技术实施例提供的另一种基于机器学习的数据修复装置的结构示意图;
[0031]图5示出了本专利技术实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
[0032]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的
情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0033]目前,通常是单独对脏数据进行清洗和修复。然而,这种方式只是考虑对脏数据的修复,并没有考虑修复后的数据对于分类任务的影响,从而导致修复后的数据质量较低,对于分类任务没有切实的帮助。
[0034]为了解决上述问题,本专利技术实施例提供了一种基于机器学习的数据修复方法,如图1所示,所述方法包括:
[0035]101、获取用于模型训练的待修复数据集。
[0036]其中,待修复数据集包括样本患者的多组医疗数据,每组医疗数据包括样本患者在多个属性维度下的属性数据,多个属性维度可以包括样本患者的性别、年龄、所在城市、症状、所使用的药品和耗材等。为了克服现有技术中数据修复任务与分类模型训练任务相独立,进而导致修复后的数据集对于后续的分类任务没有切实帮助的缺陷。本专利技术实施将数据修复任务与分类模型训练任务相结合,彼此相互指导,从而能够保证修复后的数据集对于分类任务有切实的帮助,提高了分类模型的分类精度。本专利技术实施例主要应用于对数据集进行修复的场景。本专利技术实施例的执行主体为能够对数据集进行修复的装置或者设备,具体可以设置在服务器一侧。
[0037]对于本专利技术实施例,为了训练分类模型,需要预先收集大量样本患者在多个属性维度下的属性数据,将每位样本患者在多个属性维度下的属性数据作为一组医疗数据,从而能够收集多组医疗数据,由于有些医疗数据之间可能存在错误或者冲突,如果直接使用收集到的医疗数据训练模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据修复方法,其特征在于,包括:获取用于模型训练的待修复数据集;对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集;构建所述多个候选修复集分别对应的预设分类模型,并利用测试数据集分别对多个所述预设分类模型进行测试,得到多个所述预设分类模型分别对应的测试结果;根据所述测试结果,从所述多个候选修复集中筛选所述待修复数据集对应的目标修复集。2.根据权利要求1所述的方法,其特征在于,所述对所述待修复数据集进行错误检测,根据检测结果对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集,包括:对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据;基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,并利用所述多种修复方案分别对所述待修复数据集进行修复,生成所述待修复数据集对应的多个候选修复集。3.根据权利要求2所述的方法,其特征在于,所述多组医疗数据中的任意一组医疗数据包括样本患者在多个属性维度下的属性数据,所述对所述待修复数据集中的多组医疗数据进行错误检测,确定所述多组医疗数据中存在冲突的目标医疗数据,包括:判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束;若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据;或者判定所述多组医疗数据中任意两组医疗数据之间是否满足距离依赖约束;若不满足所述距离依赖约束,则确定所述任意两组医疗数据为目标医疗数据;或者判定所述多组医疗数据中任意两组医疗数据之间是否满足拒绝依赖约束;若不满足所述拒绝依赖约束,则确定所述任意两组医疗数据为目标医疗数据。4.根据权利要求3所述的方法,其特征在于,所述判定所述多组医疗数据中任意两组医疗数据之间是否满足函数依赖约束,包括:当所述任意两组医疗数据中样本患者在第一属性维度下的属性数据相等时,判定所述样本患者在第二属性维度下的属性数据是否相等;若所述样本患者在所述第二属性维度下的属性数据不相等,则确定所述任意两组医疗数据之间不满足所述函数依赖约束;所述若不满足所述函数依赖约束,则确定所述任意两组医疗数据为目标医疗数据,包括:若所述任意两组医疗数据之间不满足所述依赖函数约束,则确定所述任意两组医疗数据为目标医疗数据,并确定所述任意两组医疗数据中所述第一属性维度下的属性数据和所述第二属性维度下的属性数据为目标属性数据;所述基于所述目标医疗数据,确定所述待修复数据集对应的多种修复方案,包括:基于所述目标医疗数据和所述目标属性数据,确定所述待修复数据集中所述任意两组医疗数据对应的多种修复方案。
5.根据权利要求3所述的方法,其特征在于,所述判...

【专利技术属性】
技术研发人员:徐啸
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1