一种数据集生成方法、装置、训练方法、介质及设备制造方法及图纸

技术编号：33335008 阅读：23 留言：0更新日期：2022-05-08 09:17

本申请公开了一种数据集生成方法、装置、数据模型训练方法、存储介质及设备，属于图像分析及处理技术领域。该数据集生成方法包括：通过第一数据集训练得到第一训练模型，第一训练模型包含第一数据集中数据的所有类别标注的第一类别标注信息；将第二数据集通过第一训练模型训练，得到第二数据集的预测类别标注；以及根据第二数据集和预测类别标注得到目标第二数据集。本申请对第二数据集中数据的标注进行处理，避免数据集中未进行标注的数据产生负面影响。负面影响。负面影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据集生成方法、装置、训练方法、介质及设备

[0001]本专利技术涉及图像分析及处理
，特别是一种数据集生成方法、装置、数据模型训练方法、存储介质及设备。

技术介绍

[0002]在进行数据集的语义分割过程中，为降低数据集时的成本，提高效率，针对不同任务生成的数据集，可能会通过不同类别的标注进行数据集数据的表示。对于不同的数据集，如果数据集中标注的类别不同，且想要充分利用各个数据集的数据内容时，目前可进行以下训练方法，以两个不同的数据集为例进行说明。方法一：选择两个不同的数据集之间重合的标注类别进行训练得到一个训练模型，其中该训练模型的标注类别为两个数据集的标注类别的交集。方法二：对两个数据集分别训练一个模型，进而得到两个训练模型，两个训练模型的标注类别分别为各自数据集对应的标注类别。方法三：强行融合两个数据集得到一个新的数据集，再对该融合数据集进行训练得到一个训练模型，其中该训练模型的标注类别是两个数据集类别的并集。在上述方法中，通过方法一训练出来的训练模型虽然能够很好的融合利用两个数据集，且训练模型的效果比单独通过一个数据集得到的训练模型的泛化能力更好。因为只对数据集之间重合的标注类别进行训练，所以最终的训练模型往往满足不了需求标注类别的要求，特别是当两个数据集没有多少交集标注类别的情况下。方法二虽然可以满足标注类别需求，但是当某个任务产生的数据集的标注类别需求和其他任务有重叠时，无法做到充分利用两个数据集，而且多个数据集对应的训练模型对于实际任务使用时也会使相关的时间的翻倍，进而降低效率。在方法三中，将...

【技术保护点】

【技术特征摘要】
1.一种数据集生成方法、其特征在于，包括：通过第一数据集训练得到第一训练模型，所述第一训练模型包含所述第一数据集中数据的所有类别标注的第一类别标注信息；将第二数据集通过所述第一训练模型训练，得到所述第二数据集的预测类别标注；以及根据所述第二数据集和所述预测类别标注得到目标第二数据集。2.如权利1所述的数据集生成方法，其特征在于，所述将第二数据集通过所述第一训练模型训练得到所述第二数据集的预测类别标注之前，还包括：在所述第一训练模型中，提高属于所述第一类别标注但不属于所述第二数据集中第二类别标注的区别类别标注的权重。3.如权利要求1所述的数据集生成方法，其特征在于，所述将第二数据集通过所述第一训练模型训练，得到所述第二数据集的预测类别标注的过程包括：根据权重调整后的所述第一类别标注信息对所述第二数据集中的所有数据进行遍历，利用所述第一类别标注对所述遍历得到的数据进行标注，得到所述预测类别标注。4.如权利要求1所述的数据集生成方法，其特征在于，所述根据所述第二数据集的第二类别标注和所述预测类别标注得到目标第二数据集，包括：将所述预测类别标注中识别为所述区别类别标注记录为忽略类别标注；以及将所述第二类别标注和带有所述忽略类别标注的所述预测类别标注进行融合，得到目标类别标注，将具有所述目标类别标注的第二数据集确定为所述目标第二数据集。5.如权利要求1所述的数据集生成方法，其特征在于，还包括：对所述目标第二数据集中所述忽略类别标注对应的数据进行膨胀操作，使得扩大所述忽略类别标注对应的数据范围。6.如权利要求1所...

【专利技术属性】
技术研发人员：张鹏飞，康勇，
申请(专利权)人：北京四维图新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人