多模态通用感知模型训练、标注方法及装置、电子设备制造方法及图纸

技术编号：42148904 阅读：19 留言：0更新日期：2024-07-27 00:03

本公开涉及数据处理技术领域，公开了一种多模态通用感知模型训练、标注方法及装置、电子设备，该方法包括：确定多个样本图像，并分别对每个样本图像进行标注，确定每个样本图像对应的多个初始区域级图文数据标注结果；对每个样本图像对应的多个初始区域级图文数据标注结果进行修正，确定每个样本图像对应的多个修正后的标注结果；基于每个样本图像对应的多个修正后的标注结果，对多模态通用感知模型进行训练，得到训练好的多模态通用感知模型，用于对目标图像进行标注，确定目标图像对应的多个区域级图文数据标注结果。本公开实施例可以简化区域级图文标注过程，实现通过多模态通用感知模型对目标图像进行自动标注，降低标注成本，提高标注效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及一种多模态通用感知模型训练、标注方法及装置、电子设备。

技术介绍

1、区域级图文数据标注，与常用的针对样本图像整体的图文数据标注不同，可以对样本图像中一个目标区域和/或目标对象进行单独标注，具有较高的指向性。现有技术中，通常利用人工标注的方式，实现对样本图像的区域级图文数据标注，确定对应的区域级图文标注结果。但是，由于人工标注的效率和成本较高，很难快速有效地获取构建大量的区域级图文数据标注结果。

技术实现思路

1、有鉴于此，本公开提出了一种多模态通用感知模型训练、标注方法及装置、电子设备的技术方案。

2、根据本公开的一方面，提供了一种多模态通用感知模型训练方法，包括：确定多个样本图像，并分别对每个样本图像进行标注，确定每个样本图像对应的多个初始区域级图文数据标注结果；对每个样本图像对应的多个初始区域级图文数据标注结果进行修正，确定每个样本图像对应的多个修正后的标注结果；基于每个样本图像对应的多个修正后的标注结果，对多模态通用感知模型进行训练，得到训练...

【技术保护点】

1.一种多模态通用感知模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对每个样本图像进行标注，确定每个样本图像对应的多个初始区域级图文数据标注结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述对每个样本图像对应的多个初始区域级图文数据标注结果进行修正，确定每个样本图像对应的多个修正后的标注结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述分别对所述第二样本组包括的每个初始区域级图文数据标注结果进行修正，确定修正后的第二样本组，包括：

5.根据权利要求3所述的方法，其特征在于，所述基...

【技术特征摘要】

1.一种多模态通用感知模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对每个样本图像进行标注，确定每个样本图像对应的多个初始区域级图文数据标注结果，包括：

<...

【专利技术属性】
技术研发人员：代季峰，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人