一种数据集生成方法、装置、训练方法、介质及设备制造方法及图纸

技术编号:33335008 阅读:23 留言:0更新日期:2022-05-08 09:17
本申请公开了一种数据集生成方法、装置、数据模型训练方法、存储介质及设备,属于图像分析及处理技术领域。该数据集生成方法包括:通过第一数据集训练得到第一训练模型,第一训练模型包含第一数据集中数据的所有类别标注的第一类别标注信息;将第二数据集通过第一训练模型训练,得到第二数据集的预测类别标注;以及根据第二数据集和预测类别标注得到目标第二数据集。本申请对第二数据集中数据的标注进行处理,避免数据集中未进行标注的数据产生负面影响。负面影响。负面影响。

【技术实现步骤摘要】
一种数据集生成方法、装置、训练方法、介质及设备


[0001]本专利技术涉及图像分析及处理
,特别是一种数据集生成方法、装置、数据模型训练方法、存储介质及设备。

技术介绍

[0002]在进行数据集的语义分割过程中,为降低数据集时的成本,提高效率,针对不同任务生成的数据集,可能会通过不同类别的标注进行数据集数据的表示。对于不同的数据集,如果数据集中标注的类别不同,且想要充分利用各个数据集的数据内容时,目前可进行以下训练方法,以两个不同的数据集为例进行说明。方法一:选择两个不同的数据集之间重合的标注类别进行训练得到一个训练模型,其中该训练模型的标注类别为两个数据集的标注类别的交集。方法二:对两个数据集分别训练一个模型,进而得到两个训练模型,两个训练模型的标注类别分别为各自数据集对应的标注类别。方法三:强行融合两个数据集得到一个新的数据集,再对该融合数据集进行训练得到一个训练模型,其中该训练模型的标注类别是两个数据集类别的并集。在上述方法中,通过方法一训练出来的训练模型虽然能够很好的融合利用两个数据集,且训练模型的效果比单独通过一个数据集得到的训练模型的泛化能力更好。因为只对数据集之间重合的标注类别进行训练,所以最终的训练模型往往满足不了需求标注类别的要求,特别是当两个数据集没有多少交集标注类别的情况下。方法二虽然可以满足标注类别需求,但是当某个任务产生的数据集的标注类别需求和其他任务有重叠时,无法做到充分利用两个数据集,而且多个数据集对应的训练模型对于实际任务使用时也会使相关的时间的翻倍,进而降低效率。在方法三中,将多个数据集融合,进而可实现多个数据集的所有标注类别以一个训练模型进行表示,但是在融合数据集的训练过程中,由于训练时会出现数据集中的内容属于某个标注类别但实际并没有标注的情况,最终导致获得的融合数据集的训练模型结果特别不理想。
[0003]在包括多个类别标注的的数据集中,将多个数据集直接训练成包括各个不同类别标注的语义分割模型较为困难。并且数据集中存在属于某一类别的数据内容但没有进行标注的情况。如果不对数据集中未进行标注的数据进行适当的处理而直接进行训练则会造成极大损害,使得最终得到的数据模型达不到模型的要求。

技术实现思路

[0004]针对上述现有技术中,在进行数据集的融合等数据处理时,未标注的数据导致最终的数据融合结果不理想或者数据模型无法达到模型要求的技术问题,本申请提供一种数据集生成方法、装置、数据模型训练方法、存储介质及设备。
[0005]在本申请的一个技术方案中,提供一种数据集生成方法,其包括:通过第一数据集训练得到第一训练模型,第一训练模型包含第一数据集中数据的所有类别标注的第一类别标注信息;将第二数据集通过第一训练模型训练,得到第二数据集的预测类别标注;以及根据第二数据集和预测类别标注得到目标第二数据集。
[0006]在本申请的另一技术方案中,提供一种数据集生成装置,其包括:模型训练模块,其通过第一数据集训练得到第一训练模型,第一训练模型包含第一数据集的第一类别标注信息;以及将第二数据集通过第一训练模型训练,得到第二数据集的预测类别标注;以及目标数据集模块,其根据第二数据集的第二类别标注和预测类别标注得到目标第二数据集。
[0007]在本申请的另一技术方案中,提供一种数据模型训练方法,其中该数据模型训练方法包括:获取至少两个数据集样本,至少两个数据集样本中包含具有原始标注的数据;对至少两个数据集样本中的数据生成忽略类别标注,包括:根据用于对一个第一数据集中数据的所有类别标注或者多个第一数据集中数据的所有融合后的类别标注进行表示的第一类别标注,以及用于对第二数据集中数据的所有类别标注进行表示的第二类别标注,确定包含于第一类别标注中但不包含于第二类别标注中的区别类别标注;以及当第二类别标注表示的语义范围与区别类别标注表示的语义范围存在交集时,对第二数据集中交集对应的数据内容,生成忽略类别标注;将具有忽略类别标注的各个至少两个数据集样本进行融合得到目标数据样本,使得目标数据样本中的数据的标注包括各个至少两个数据集样本的原始标注以及各个至少两个数据集样本的忽略类别标注;以及采用目标数据样本中的不属于忽略类别标注的数据,对目标数据模型进行训练。
[0008]在本申请的另一技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的数据集生成方法。
[0009]在本申请的另一技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,处理器操作计算机指令以执行方案一中的数据集生成方法。
[0010]本申请技术方案可以达到的有益效果是:将数据集中未进行相关标注的数据进行适当标注,使该数据集的标注类别更加完整,进而在后续进行数据集的融合或者模型训练时,避免数据集中未进行标注的数据产生负面影响,优化数据集融合或者数据模型训练等数据处理的结果。
附图说明
[0011]图1是本申请数据集生成方法的一个具体实施方式的流程示意图;
[0012]图2是本申请数据集生成方法的一个具体实施例的流程示意图;
[0013]图3是本申请数据集生成方法的一个实例的流程示意图;
[0014]图4是本申请数据集生成方法的一个具体实例;
[0015]图5是本申请数据集生成方法的一个具体实例;
[0016]图6是本申请数据集生成装置的一个具体实施方式的示意图;
[0017]图7是本申请数据模型训练方法的一个具体实施方式的流程示意图。
具体实施方式
[0018]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第
四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0020]图1示出了本申请的数据集生成方法的一个具体实施方式。
[0021]在图1所示的具体实施方式中,本申请的数据集生成方法包括过程S101、过程S102以及过程S103。
[0022]在图1所示的具体实施方式中,S101为通过第一数据集训练得到第一训练模型,第一训练模型包含第一数据集中数据的所有类别标注的第一类别标注信息。
[0023本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集生成方法、其特征在于,包括:通过第一数据集训练得到第一训练模型,所述第一训练模型包含所述第一数据集中数据的所有类别标注的第一类别标注信息;将第二数据集通过所述第一训练模型训练,得到所述第二数据集的预测类别标注;以及根据所述第二数据集和所述预测类别标注得到目标第二数据集。2.如权利1所述的数据集生成方法,其特征在于,所述将第二数据集通过所述第一训练模型训练得到所述第二数据集的预测类别标注之前,还包括:在所述第一训练模型中,提高属于所述第一类别标注但不属于所述第二数据集中第二类别标注的区别类别标注的权重。3.如权利要求1所述的数据集生成方法,其特征在于,所述将第二数据集通过所述第一训练模型训练,得到所述第二数据集的预测类别标注的过程包括:根据权重调整后的所述第一类别标注信息对所述第二数据集中的所有数据进行遍历,利用所述第一类别标注对所述遍历得到的数据进行标注,得到所述预测类别标注。4.如权利要求1所述的数据集生成方法,其特征在于,所述根据所述第二数据集的第二类别标注和所述预测类别标注得到目标第二数据集,包括:将所述预测类别标注中识别为所述区别类别标注记录为忽略类别标注;以及将所述第二类别标注和带有所述忽略类别标注的所述预测类别标注进行融合,得到目标类别标注,将具有所述目标类别标注的第二数据集确定为所述目标第二数据集。5.如权利要求1所述的数据集生成方法,其特征在于,还包括:对所述目标第二数据集中所述忽略类别标注对应的数据进行膨胀操作,使得扩大所述忽略类别标注对应的数据范围。6.如权利要求1所...

【专利技术属性】
技术研发人员:张鹏飞康勇
申请(专利权)人:北京四维图新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1