数据迁移方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39057958 阅读:18 留言:0更新日期:2023-10-12 19:51
本申请实施例中提供了一种数据迁移方法、装置、计算机设备和存储介质,涉及计算机技术领域,该方法包括:获取第一历史数据集和对第一历史数据集按照历史标注规则标注的历史标注结果;对历史标注结果进行预处理,得到第二历史数据集,并记录第二历史数据集与第一历史数据集的对应关系;获取第一新数据集和对第一新数据集按照新标注规则标注的新标注结果,并训练生成图像分类模型;基于图像分类模型预测第二历史数据集的类型预测结果,根据对应关系,将类型预测结果同步至第一历史数据集中与第二历史数据集对应的标注框的标注类型。该方案统一了历史标注规则下和新标注规则下的数据集的标注类型,使得在新场景下可以复用历史标注规则下的数据集。标注规则下的数据集。标注规则下的数据集。

【技术实现步骤摘要】
数据迁移方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体地,涉及一种数据迁移方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,数据标注作为人工智能算法得以有效运行的关键环节,已经越来越多的应用到各种不同场景中,例如智能安防、智能交通、智能医疗等。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
[0003]目前,对于图像的目标检测任务标注过程中,需要根据标注规范进行标注,一般包含目标的矩形框在图像的位置以及目标的类型,但是由于标注规范在一批批数据集标注过程中的更改或数据集在另外一个场景下的迁移训练需要更改,导致数据集标注不统一,使得大量历史数据集无法复用至新场景中。

技术实现思路

[0004]本申请实施例中提供了一种数据迁移方法、装置、计算机设备和存储介质。
[0005]本申请实施例的第一个方面,提供了一种数据迁移方法,包括:
[0006]获取第一历史数据集和对第一历史数据集按照历史标注规则标注的历史标注结果;
[0007]对历史标注结果进行预处理,得到第二历史数据集,并记录第二历史数据集与第一历史数据集之间的对应关系;
[0008]获取第一新数据集和对第一新数据集按照新标注规则标注的新标注结果,并训练生成图像分类模型;
[0009]基于图像分类模型预测第二历史数据集的类型预测结果,根据对应关系,将类型预测结果同步至第一历史数据集中与第二历史数据集对应的标注框的标注类型。
[0010]在本申请一个可选的实施例中,对历史标注结果进行预处理,得到第二历史数据集,包括:
[0011]对历史标注结果进行数据校正处理,得到校正标注结果,校正标注结果包括校正区域;
[0012]基于校正区域对第一历史数据集进行裁剪处理,得到第二历史数据集。
[0013]在本申请一个可选的实施例中,对历史标注结果进行数据校正处理,得到校正标注结果,包括:
[0014]将第一历史数据集划分为多个第一历史数据子集,每个第一历史数据子集中标注的历史标注结果为相同标注类型;
[0015]筛选每个第一历史数据子集中存在错误的标注框并进行校正,确定第一历史数据集的校正区域;
[0016]将第一历史数据集的标注类型作为第二历史数据集的标注类型;
[0017]将第二历史数据集划分为多个第二历史数据子集;
[0018]筛选每个第二历史数据子集中存在错误的标注类型并进行校正,得到校正标注结果。
[0019]在本申请一个可选的实施例中,筛选每个数据集的历史标注结果中存在错误的标注框并进行校正,包括:
[0020]循环执行第一指定操作,直至对多个第一历史数据子集中的每个第一历史数据子集进行校正完成为止;第一指定操作包括:
[0021]从多个第一历史数据子集中选取一个第一历史数据子集作为当前测试集,将其他第一历史数据子集作为当前训练集;
[0022]对当前训练集进行训练,得到当前目标检测模型;
[0023]通过当前目标检测模型对当前测试集进行预测,得到当前预测结果;
[0024]将当前预测结果与当前测试集中的标注框进行比对,筛选当前测试集中的存在错误的标注框并进行校正;
[0025]判断当前测试集是否为最后一个第一历史数据子集;
[0026]若不是,控制进入下一第一指定操作;若是,控制不进入下一第一指定操作。
[0027]在本申请一个可选的实施例中,筛选每个第二历史数据子集中存在错误的标注类型并进行校正,得到校正标注结果,包括:
[0028]循环执行第二指定操作,直至对多个第二历史数据子集中的每个第二历史数据子集进行校正完成为止;第二指定操作包括:
[0029]从多个第二历史数据子集中选取一个第二历史数据子集作为当前测试集,将其他第二历史数据子集作为当前训练集;
[0030]对当前训练集进行训练,得到当前图片分类模型;
[0031]通过当前图片分类模型对当前测试集进行预测,得到当前预测结果;
[0032]将当前预测结果与当前测试集中的标注类型进行比对,筛选当前测试集中的存在错误的标注类型并进行校正;
[0033]判断当前测试集是否为最后一个第二历史数据子集;
[0034]若不是,控制进入下一第二指定操作;若是,控制不进入下一第二指定操作。
[0035]在本申请一个可选的实施例中,获取第一新数据集和对第一新数据集按照新标注规则标注的新标注结果,并训练生成图像分类模型,包括:
[0036]基于新标注结果中的目标区域,对第一新数据集进行裁剪处理,得到第二新数据集;
[0037]将新标注结果中的标注类型作为第二新数据集对应的标注类型;
[0038]基于第二新数据集和标注类型,训练图像分类模型。
[0039]在本申请一个可选的实施例中,基于图像分类模型预测第二历史数据集的类型预测结果,根据对应关系,将类型预测结果同步至第一历史数据集中第二历史数据集对应的标注框的标注类型,包括:
[0040]通过图像分类模型对第二历史数据集进行预测,得到输出结果;
[0041]将输出结果作为第二历史数据集的类型预测结果;
[0042]基于对应关系,确定第一历史数据集标识、第二历史数据集标识和第二数据集在第一数据集的位置;
[0043]基于第一历史数据集标识、第二历史数据集标识和第二历史数据集在第一历史数据集的位置,将类型预测结果迁移同步至第一历史数据集中第二历史数据集对应的标注框的标注类型。
[0044]本申请实施例的第二个方面,提供了一种数据迁移装置,包括:
[0045]获取模块,用于获取第一历史数据集和对第一历史数据集按照历史标注规则标注的历史标注结果;
[0046]处理模块,用于对历史标注结果进行预处理,得到第二历史数据集,并记录第二历史数据集与第一历史数据集之间的对应关系;
[0047]训练模块,用于获取第一新数据集和对第一新数据集按照新标注规则标注的新标注结果,并训练生成图像分类模型;
[0048]迁移模块,用于基于图像分类模型预测第二历史数据集的类型预测结果,根据对应关系,将类型预测结果同步至第一历史数据集中与第二历史数据集对应的标注框的标注类型。
[0049]本申请实施例的第三个方面,提供了一种计算机设备,包括:包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上任一项方法的步骤。
[0050]本申请实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如上任一项的方法的步骤。
[0051]本申请实施例中通过获取第一历史数据集和对第一历史数据集按照历史标注规则标注的历史标注结果,然后对历史标注结果进行预处理,得到第二历史数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据迁移方法,其特征在于,包括:获取第一历史数据集和对所述第一历史数据集按照历史标注规则标注的历史标注结果;对所述历史标注结果进行预处理,得到第二历史数据集,并记录所述第二历史数据集与所述第一历史数据集之间的对应关系;获取第一新数据集和对所述第一新数据集按照新标注规则标注的新标注结果,并训练生成图像分类模型;基于所述图像分类模型预测所述第二历史数据集的类型预测结果,根据所述对应关系,将所述类型预测结果同步至所述第一历史数据集中与所述第二历史数据集对应的标注框的标注类型。2.根据权利要求1所述的数据迁移方法,其特征在于,对所述历史标注结果进行预处理,得到第二历史数据集,包括:对所述历史标注结果进行数据校正处理,得到校正标注结果,所述校正标注结果包括校正区域;基于所述校正区域对所述第一历史数据集进行裁剪处理,得到第二历史数据集。3.根据权利要求2所述的数据迁移方法,其特征在于,对所述历史标注结果进行数据校正处理,得到校正标注结果,包括:将所述第一历史数据集划分为多个第一历史数据子集,每个所述第一历史数据子集中标注的历史标注结果为相同标注类型;筛选每个所述第一历史数据子集中存在错误的标注框并进行校正,确定所述第一历史数据集的校正区域;将所述第一历史数据集的标注类型作为所述第二历史数据集的标注类型;将所述第二历史数据集划分为多个第二历史数据子集;筛选每个所述第二历史数据子集中存在错误的标注类型并进行校正,得到校正标注结果。4.根据权利要求3所述的数据迁移方法,其特征在于,筛选每个所述数据集的历史标注结果中存在错误的标注框并进行校正,包括:循环执行第一指定操作,直至对所述多个第一历史数据子集中的每个第一历史数据子集进行校正完成为止;所述第一指定操作包括:从所述多个第一历史数据子集中选取一个第一历史数据子集作为当前测试集,将其他第一历史数据子集作为当前训练集;对所述当前训练集进行训练,得到当前目标检测模型;通过所述当前目标检测模型对所述当前测试集进行预测,得到当前预测结果;将所述当前预测结果与所述当前测试集中的标注框进行比对,筛选所述当前测试集中的存在错误的标注框并进行校正;判断所述当前测试集是否为最后一个第一历史数据子集;若不是,控制进入下一第一指定操作;若是,控制不进入下一第一指定操作。5.根据权利要求3所述的数据迁移方法,其特征在于,筛选每个所述第二历史数据子集中存在错误的标注类型并进行校正,得到校正标注结果,包括:
循环执行第二指定操作,直至对所述多个第二历史数据子集中的每个第二历史数据子集进行校正完成为止;所述第二指定操作包括:从所述多个第二历史数据子集中选取一个第二历...

【专利技术属性】
技术研发人员:张上鑫
申请(专利权)人:蘑菇车联信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1