基于多域自适应数据闭环的数据标注方法及系统技术方案

技术编号：40097018 阅读：5 留言：0更新日期：2024-01-23 17:05

本申请公开了一种基于多域自适应数据闭环的数据标注方法及系统，包括：对待标注数据做特征提取，转化为向量写入向量数据库；计算相似度，选取与待标注数据域相似的已标注数据；利用这些数据对基模型进行补充训练，得到针对待标注数据域的预标注模型；使用该模型预测待标注数据的特征向量聚类得到的代表性数据的预标注标签，通过人工修改得到合格的有代表性标注数据；用这些标注数据再次对预标注模型进行补充训练，得到最终的针对待标注数据域的预标注模型；使用这个最终的模型预测剩余待标注数据的预标注标签，通过人工修改得到剩余待标注数据的标注信息。最终的预标注模型作为下次数据标注的基模型存储，完成数据闭环。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理领域，尤其涉及一种基于多域自适应数据闭环的数据标注方法及系统。

技术介绍

1、数据闭环一直是软件工程领域的一种成熟的工作方式，在人工智能时代，数据闭环并没有从根本上改变“整体”软件工程的工作方法，但是，对管理、运营和工具带来了全新挑战。而数据标注是对计算机视觉（cv）或自然语言处理 (nlp)等领域对可识别的材料内容进行标记的过程。得益于数据标注，人工智能 (ai) 或机器学习模型可以解释高质量图像和视频以及文本中的数据。数据标注使自动驾驶汽车等机器学习项目能够成功地将我们带到目的地。

2、目前而言，最为基础的标注软件如labelme、labelimg等方法，用户对数据采集后上传到标注软件，输出标注格式后还需要根据训练的情况做修改，再输入到模型进行训练。这些基础标注软件线性的数据生产方式无法做到有效的数据闭环。

3、此外现有数据闭环方法一般是将用户传入新的数据对预标注模型做补充训练得到新的预标注模型，新的预标注模型再去对新的数据做预标注以完成数据闭环。而这种现有数据闭环方法是在没有分析数据域的情况下直接传入预标注模型做补充训练，在减弱预标注模型的补充训练效果的同时降低了预标注模型对旧数据的拟合效果，无法充分发挥出数据闭环对模型补充训练的优势。

技术实现思路

1、本专利技术的目的是提供一种基于多域自适应数据闭环的数据标注方法及系统，以降低数据闭环过程中不同数据的域差异导致预标注模型补充训练时对域相关特征的可分辨性的损害，也去除了预标注模型在新

2、根据本申请实施例的第一方面，提供一种基于多域自适应数据闭环的数据标注方法，包括：

3、对待标注数据做特征提取，转为向量写入向量数据库；

4、计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

5、选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

6、对待标注数据的特征向量做聚类，得到有代表性数据；

7、使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

8、用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

9、使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

10、根据本申请实施例的第二方面，提供一种基于多域自适应数据闭环的数据标注系统，包括：

11、提取模块，用于对待标注数据做特征提取，转为向量写入向量数据库；

12、相似度计算模块，用计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据；

13、第一训练模块，用于选取与待标注数据域相似的已标注数据对相应任务的基模型进行补充训练，得到针对待标注数据域的预标注模型；

14、聚类模块，用于对待标注数据的特征向量做聚类，得到有代表性数据；

15、第一预测模块，用于使用所述预标注模型预测有代表性数据得到预标注标签，通过人工修改预标注标签得到合格的有代表性标注数据；

16、第二训练模块，用于用合格的有代表性标注数据对所述预标注模型做补充训练，得到最终的针对待标注数据域的预标注模型；

17、第二预测模块，用于使用最终的针对待标注数据域的预标注模型预测剩余待标注数据得到预标注标签，通过人工修改预标注标签得到剩余待标注数据的标注信息。

18、根据本申请实施例的第三方面，提供一种电子设备，包括：

19、一个或多个处理器；

20、存储器，用于存储一个或多个程序；

21、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

22、根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

23、与现有技术相比，本专利技术的实施例具有以下有益效果：

24、将数据做特征提取后存入向量数据库，提高了数据的处理性能，能够支持大规模的数据检索；选取和新数据相似的数据域对模型进行补充训练，能够达到更好的补充训练效果；有效利用已有数据，能利用已有数据解决跨域问题，帮助新场景或新要求的数据冷启动。另外，本专利技术实施例还将数据标注任务回馈到预标注模型，标注产生的数据反哺模型生成更为优质的预标注模型，完成数据闭环，提高大数据量的数据标注任务的处理效率。

25、本专利技术提出的基于数据闭环的标注系统能够有效的解决这类问题，同时提供了安全、高效的数据流入和数据仓库来确保数据的稳定性，输出的模型反哺到标注系统完善预标注模型，整个闭环操作有效解决了人工完成标注效率低下的问题，提高了数据循环链路的速度，是整个自动驾驶技术迭代的关键点。

本文档来自技高网...

【技术保护点】

1.一种基于多域自适应数据闭环的数据标注方法，其特征在于，包括：

2.根据权利要求1所述的数据标注方法，其特征在于，计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据，包括：

3.根据权利要求1所述的数据标注方法，其特征在于，所述相应任务的基模型选自2/3D目标检测基模型、2/3D语义分割基模型、关键点基模型、线标注基模型、文字识别基模型、语音识别基模型中的一种。

4.根据权利要求1所述的数据标注方法，其特征在于，对待标注数据的特征向量做聚类，得到有代表性数据，包括：

5.根据权利要求1所述的数据标注方法，其特征在于，使用所述预标注模型预测有代表性数据得到预标注标签，包括：

6.根据权利要求5所述的数据标注方法，其特征在于，当所述相应任务的基模型为2/3D目标检测基模型时，所述预标注模型预测输出为2/3D检测框；

7.一种基于多域自适应数据闭环的数据标注系统，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算

...

【技术特征摘要】

1.一种基于多域自适应数据闭环的数据标注方法，其特征在于，包括：

2.根据权利要求1所述的数据标注方法，其特征在于，计算待标注数据与数据库中已标注数据的相似度，选取与待标注数据域相似的已标注数据，包括：

3.根据权利要求1所述的数据标注方法，其特征在于，所述相应任务的基模型选自2/3d目标检测基模型、2/3d语义分割基模型、关键点基模型、线标注基模型、文字识别基模型、语音识别基模型中的一种。

4.根据权利要求1所述的数据标注方法，其特征在于，对待标注数据的特征向量做聚类，得到有代表性数据，包括：

【专利技术属性】
技术研发人员：林群书，刘明皓，祁士刚，吴欣骏，杨易，张超，赵子健，彭昊龙，邵琪钧，
申请(专利权)人：整数智能信息技术杭州有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人