数据标注和域适应模型训练方法、装置、设备及介质制造方法及图纸

技术编号:36502658 阅读:12 留言:0更新日期:2023-02-01 15:25
本公开实施例公开了一种数据标注和域适应模型训练方法、装置、设备及介质。本公开通过获取源域数据集以及目标域数据集所构建的域适应模型,以通过域适应模型中的主干网络、域适应模块依次确定各目标域数据的初始特征、目标特征,进而根据目标特征确定目标域数据的预测识别标签,实现了对各目标域数据的标注,适用于各新场景下的数据集,无需人为标注,提高了标注效率和标注质量,降低了标注成本。并且,通过域适应模型中的域适应模块确定目标特征,实现了通过域适应模块将源域数据和目标域数据进行特征空间对齐,无需通过主干网络进行特征空间对齐,避免了对主干网络的反复训练,进而解决了主干网络训练过程不稳定、难以收敛的问题。问题。问题。

【技术实现步骤摘要】
数据标注和域适应模型训练方法、装置、设备及介质


[0001]本公开涉及数据处理
,尤其涉及一种数据标注和域适应模型训练方法、装置、设备及介质。

技术介绍

[0002]深度神经网络由于具有较好的可学习性、准确率高,在各个领域被广泛应用,如,自动驾驶感知领域、自然语言处理领域等。深度神经网络要具备良好的感知能力,需要大量的标注数据进行监督训练,标注数据的数量和质量对神经网络的性能具有决定性的影响。
[0003]目前,深度神经网络训练所需的标注数据主要来源于人工标注,通过让标注人员根据制定的标注规则对点云、图像或文本等数据进行标注。同时,针对一些成熟的应用场景,也有厂商通过数据闭环的方式实现数据自动标注,但目前标注数据主要还是来源于人工标注。
[0004]然而,人工标注大量数据需要耗费较大的成本,特别是针对点云等3D数据,标注过程更加复杂,成本更高。此外,人工标注主要依赖于标注人员的主观判断,在标注过程中难以保证统一的标注标准,数据标注的质量较难保证。自动标注方法效率较高,且标注标准统一。现有的自动标注方法,大多只能针对较成熟的场景数据进行标注,对于稍有差异的新场景数据还是需要人工进行标注,不能实现完全的高效率自动标注。
[0005]因此,现有技术中存在以下技术问题:依赖人工标注的方式成本高、效率低、标注质量低;自动标注方法无法实现新场景下的数据标注。

技术实现思路

[0006]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种数据标注和域适应模型训练方法、装置、设备及介质,实现对目标域数据的标注,适用于各个新场景下的数据集,无需人为标注,提高了标注效率和标注质量,降低了标注成本。
[0007]第一方面,本公开实施例提供了一种数据标注方法,该方法包括:
[0008]获取基于源域数据集以及目标域数据集确定的域适应模型,其中,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;
[0009]将各所述目标域数据输入至所述域适应模型,得到所述域适应模型输出的各所述目标域数据对应的预测识别标签;
[0010]其中,所述域适应模型包括主干网络、域适应模块、域判别器以及预测输出模块,所述主干网络用于确定各所述目标域数据的初始特征,所述域适应模块用于根据各所述目标域数据的初始特征确定各所述目标域数据的目标特征,所述预测输出模块用于基于各所述目标域数据的目标特征确定各所述目标域数据对应的预测识别标签。
[0011]第二方面,本公开实施例还提供了一种域适应模型训练方法,所述方法包括:
[0012]基于源域数据集以及目标域数据集确定判别模型,其中,所述判别模型包括主干
网络、预测输出模块以及域判别器,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;
[0013]基于所述判别模型构建域适应模型,基于所述域适应模型中的主干网络,确定所述源域数据集以及所述目标域数据集中各数据的初始特征,并基于所述域适应模型中的域适应模块以及各数据的初始特征确定各数据的目标特征;
[0014]基于各源域数据的目标特征、所述域判别器和所述预测输出模块,确定各源域数据的预测域分类标签以及预测识别标签,基于各目标域数据的目标特征以及所述域判别器,确定各目标域数据的预测域分类标签;
[0015]基于各源域数据的预测域分类标签、各源域数据的预测识别标签以及各目标域数据的预测域分类标签,对所述域适应模块中的参数进行调整。
[0016]第三方面,本公开实施例还提供了一种数据标注装置,该装置包括:
[0017]模型获取模块,用于获取基于源域数据集以及目标域数据集确定的域适应模型,其中,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;
[0018]标签确定模块,用于将各所述目标域数据输入至所述域适应模块,得到所述域适应模块输出的各所述目标域数据对应的预测识别标签;
[0019]其中,所述域适应模型包括主干网络、域适应模块、域判别器以及预测输出模块,所述主干网络用于确定各所述目标域数据的初始特征,所述域适应模块用于根据各所述目标域数据的初始特征确定各所述目标域数据的目标特征,所述预测输出模块用于基于各所述目标域数据的目标特征确定各所述目标域数据对应的预测识别标签。
[0020]第四方面,本公开实施例还提供了一种域适应模型训练装置,该装置包括:
[0021]判别模型确定模块,用于基于源域数据集以及目标域数据集确定判别模型,其中,所述判别模型包括主干网络、预测输出模块以及域判别器,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;
[0022]域适应模型构建模块,用于基于所述判别模型构建域适应模型,基于所述域适应模型中的主干网络,确定所述源域数据集以及所述目标域数据集中各数据的初始特征,并基于所述域适应模型中的域适应模块以及各数据的初始特征确定各数据的目标特征;
[0023]标签输出模块,用于基于各源域数据的目标特征、所述域判别器和所述预测输出模块,确定各源域数据的预测域分类标签以及预测识别标签,基于各目标域数据的目标特征以及所述域判别器,确定各目标域数据的预测域分类标签;
[0024]域适应训练模块,用于基于各源域数据的预测域分类标签、各源域数据的预测识别标签以及各目标域数据的预测域分类标签,对所述域适应模块中的参数进行调整。
[0025]第五方面,本公开实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的数据标注方法或域适应模型训练方法。
[0026]第六方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的数据标注方法或域适应模型训练方法。
[0027]本公开实施例提供的一种数据标注方法,通过获取源域数据集以及目标域数据集
所构建的域适应模型,以通过域适应模型中的主干网络、域适应模块依次确定各目标域数据的初始特征、目标特征,进而根据目标特征确定目标域数据的预测识别标签,实现了对各目标域数据的标注,适用于各新场景下的数据集,无需人为标注,提高了标注效率和标注质量,降低了标注成本。并且,通过域适应模型中的域适应模块确定目标特征,实现了通过域适应模块将源域数据和目标域数据进行特征空间对齐,无需通过主干网络进行特征空间对齐,避免了对主干网络的反复训练,进而解决了主干网络训练过程不稳定、难以收敛的问题。
附图说明
[0028]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,所述方法包括:获取基于源域数据集以及目标域数据集确定的域适应模型,其中,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;将各所述目标域数据输入至所述域适应模型,得到所述域适应模型输出的各所述目标域数据对应的预测识别标签;其中,所述域适应模型包括主干网络、域适应模块、域判别器以及预测输出模块,所述主干网络用于确定各所述目标域数据的初始特征,所述域适应模块用于根据各所述目标域数据的初始特征确定各所述目标域数据的目标特征,所述预测输出模块用于基于各所述目标域数据的目标特征确定各所述目标域数据对应的预测识别标签。2.一种域适应模型训练方法,其特征在于,所述方法包括:基于源域数据集以及目标域数据集确定判别模型,其中,所述判别模型包括主干网络、预测输出模块以及域判别器,所述源域数据集包括各源域数据以及各源域数据对应的预设识别标签,所述目标域数据集包括各目标域数据;基于所述判别模型构建域适应模型,基于所述域适应模型中的主干网络,确定所述源域数据集以及所述目标域数据集中各数据的初始特征,并基于所述域适应模型中的域适应模块以及各数据的初始特征确定各数据的目标特征;基于各源域数据的目标特征、所述域判别器和所述预测输出模块,确定各源域数据的预测域分类标签以及预测识别标签,基于各目标域数据的目标特征以及所述域判别器,确定各目标域数据的预测域分类标签;基于各源域数据的预测域分类标签、各源域数据的预测识别标签以及各目标域数据的预测域分类标签,对所述域适应模块中的参数进行调整。3.根据权利要求2所述的方法,其特征在于,所述基于源域数据集以及目标域数据集确定判别模型,包括:基于源域数据集确定预训练模型,其中,所述预训练模型包括所述主干网络和所述预测输出模块;基于所述预训练模型构建判别模型,根据所述源域数据集以及所述目标域数据集对所述判别模型中的域判别器进行训练,得到训练后的判别模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述源域数据集以及所述目标域数据集对所述判别模型中的域判别器进行训练,包括:基于所述源域数据集中各所述源域数据,以及所述目标域数据集中的各所述目标域数据,确定各拼接数据以及各所述拼接数据的预设域分类标签;根据各所述拼接数据以及各所述拼接数据的预设域分类标签,对所述判别模型中的域判别器进行训练。5.根据权利要求4所述的方法,其特征在于,所述基于所述源域数据集中各所述源域数据,以及所述目标域数据集中的各所述目标域数据,确定各拼接数据以及各所述拼接数据的预设域分类标签,包括:从所述源域数据集以及所述目标域数据集中分别获取当前源域数据以及当前目标域数据;
对所述当前源域数据、所述当前目标域数据分别进行分割处理,得到所述当前源域数据对应的预设数量个第一分割结果,以及所述当前目标域...

【专利技术属性】
技术研发人员:张晶华文扬张丹
申请(专利权)人:驭势科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1