一种数据标注方法、系统、电子设备及存储介质技术方案

技术编号：37974239 阅读：7 留言：0更新日期：2023-06-30 09:49

本申请提供一种数据标注方法、系统、电子设备及存储介质，首先获取原始数据，并对原始数据进行人工标注，得到第一标注数据集；再将第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，输出完成训练的神经网络模型；最后利用完成训练的神经网络模型对原始数据进行自动标注，得到第二标注数据集。本申请可以实现训练模型反哺自动标注，通过融合矩阵可以将针对性不同的识别训练模型集成为一个多类型的自动标注模型，实现多种类型一次性标注的目的。本申请通过小批量数据即可启动模型训练，节约了时间成本和资源成本；本申请还可实现训练模型到自动标注模型的正向循环迭代，训练模型迭代了就能同步更新自动标注模型。标注模型。标注模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标注方法、系统、电子设备及存储介质

[0001]本申请涉及人工智能及自动驾驶
，具体涉及一种数据标注方法、系统、电子设备及存储介质。

技术介绍

[0002]自动驾驶技术研发过程需要的数据量巨大，且随着自动驾驶级别的上升，所需要的数据量级成几何倍数增加。自动驾驶算法开发需要进行多次增量式算法训练来提升车端算法的性能。车端算法训练需要使用涉及语音、NLP(Natural Language Processing，自然语言处理，简称NLP)文本、视频、图片以及雷达点云数据。这些原始数据采集和清洗完成后需要进行完整的数据标注，自动驾驶算法研发过程正是大量使用这些已标注的高质量数据来投喂算法，才能获得好的训练效果。
[0003]传统的自动驾驶数据自动标注方法主要是通过自建标注模型来实现标注的自动化，这种方式对算法模型要求较高，一般企业难以投入大量精力去研究此类算法，而且自动标注模型也需要通过大量的数据训练学习以获得更优的标注效果，无形中又增大了训练的工作量。对于自动驾驶研发企业而言，大量的训练资源会优先投入到驾驶感知和规控算法训练，很难腾出专门的空间来训练自动标注算法。其次，自动驾驶算法需要的标注数据类型较多，要实现过程的自动标注就需要准备不同类型的数据投喂自动标注算法，使训练数据覆盖足够全，否则就会出现识别率低，人工大量返工修复等情况。因此，自动驾驶研发企业专门花精力研究自动标注算法短期内难以达到预期，需要长期的算法积累和大量的数据集验证，否则通过模型作出的自动标注结果无法起到提升标注效率的目的。
>[0004]所以，如何兼顾数据安全和标注效率，即数据能够在相对安全可控的环境中快速标注以满足算法迭代的数据量级需求，已成为自动驾驶算法研发企业的核心诉求。

技术实现思路

[0005]鉴于以上所述现有技术的缺点，本申请提供一种数据标注方法、系统、电子设备及存储介质，以解决上述技术问题。
[0006]本申请提供一种数据标注方法，所述方法包括以下步骤：
[0007]获取原始数据，并对所述原始数据进行人工标注，得到第一标注数据集；
[0008]将所述第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，输出完成训练的神经网络模型；
[0009]利用完成训练的神经网络模型对所述原始数据进行自动标注，得到第二标注数据集。
[0010]于本申请的一实施例中，利用完成训练的神经网络模型对所述原始数据进行自动标注的过程包括：
[0011]将完成训练后的神经网络模型记为第一数据标注模型；
[0012]获取所述第一数据标注模型的向量，并将所述第一数据标注模型的向量与预设融
合矩阵进行融合，得到第二数据标注模型；
[0013]利用所述第二数据标注模型对所述原始数据进行自动标注，得到所述第二标注数据集。
[0014]于本申请的一实施例中，在得到第二数据标注模型后，所述方法还包括：
[0015]利用所述第一标注数据集对所述第二数据标注模型进行迭代训练，并在训练参数收敛后，输出数据标注迭代模型；
[0016]利用所述数据标注迭代模型对所述原始数据进行自动标注，得到所述第二标注数据集。
[0017]于本申请的一实施例中，所述原始数据包括以下至少之一：图片、视频、雷达点云、文本、语音。
[0018]本申请还提供一种数据标注系统，所述系统包括有：
[0019]数据采集模块，用于获取原始数据；
[0020]人工标注模块，用于对所述原始数据进行人工标注，得到第一标注数据集；
[0021]模型训练模块，用于将所述第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，输出完成训练的神经网络模型；
[0022]自动标注模块，用于利用完成训练的神经网络模型对所述原始数据进行自动标注，得到第二标注数据集。
[0023]于本申请的一实施例中，所述自动标注模块利用完成训练的神经网络模型对所述原始数据进行自动标注的过程包括：
[0024]将完成训练后的神经网络模型记为第一数据标注模型；
[0025]获取所述第一数据标注模型的向量，并将所述第一数据标注模型的向量与预设融合矩阵进行融合，得到第二数据标注模型；
[0026]利用所述第二数据标注模型对所述原始数据进行自动标注，得到所述第二标注数据集。
[0027]于本申请的一实施例中，在得到第二数据标注模型后，所述系统还包括：
[0028]利用所述第一标注数据集对所述第二数据标注模型进行迭代训练，并在训练参数收敛后，输出数据标注迭代模型；
[0029]利用所述数据标注迭代模型对所述原始数据进行自动标注，得到所述第二标注数据集。
[0030]于本申请的一实施例中，所述原始数据包括以下至少之一：图片、视频、雷达点云、文本、语音。
[0031]本申请还提供一种电子设备，所述电子设备包括：
[0032]一个或多个处理器；
[0033]存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如上述中任一项所述的数据标注方法。
[0034]本申请还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行如上述中任一项所述的数据标注方法。
[0035]如上所述，本申请提供一种数据标注方法、系统、电子设备及存储介质，具有以下有益效果：
[0036]本申请首先获取原始数据，并对原始数据进行人工标注，得到第一标注数据集；再将第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，输出完成训练的神经网络模型；最后利用完成训练的神经网络模型对原始数据进行自动标注，得到第二标注数据集。由此可知，本申请可以实现训练模型反哺自动标注，通过融合矩阵可以将针对性不同的识别训练模型集成为一个多类型的自动标注模型，实现多种类型一次性标注的目的。相比于传统的自动标注模式，本申请通过小批量数据即可启动模型训练，待模型参数稳定后即可发布自动标注，节约了时间成本和资源成本；其次，本申请通过融合矩阵可实现不同识别算法模型集成为一个多类型的标注模型，一次性可标注多种目标或格式类型，不用重复多次自动标注过程；并且本申请还可实现训练模型到自动标注模型的正向循环迭代，训练模型迭代了就能同步更新自动标注模型。此外，本申请以目标识别为目的进行模型开发，所标注的对象即为所感知的目标，逆向利用感知模型的识别结果作为标注模型的标注结果，实现一个模型多种用途。同时，在本申请中，精度没达到训练模型要求的模型也可集成到自动标注，自动标注模型跟随训练模型的迭代而迭代，训练模型迭代后自动推送到标注模型，不用专门训练标注模型，即可实现标注模型的参数迭代。
[0037]应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。
附图说明
[0038]此处的附图被并入说明书中并构本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法，其特征在于，所述方法包括以下步骤：获取原始数据，并对所述原始数据进行人工标注，得到第一标注数据集；将所述第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，输出完成训练的神经网络模型；利用完成训练的神经网络模型对所述原始数据进行自动标注，得到第二标注数据集。2.根据权利要求1所述的数据标注方法，其特征在于，利用完成训练的神经网络模型对所述原始数据进行自动标注的过程包括：将完成训练后的神经网络模型记为第一数据标注模型；获取所述第一数据标注模型的向量，并将所述第一数据标注模型的向量与预设融合矩阵进行融合，得到第二数据标注模型；利用所述第二数据标注模型对所述原始数据进行自动标注，得到所述第二标注数据集。3.根据权利要求2所述的数据标注方法，其特征在于，在得到第二数据标注模型后，所述方法还包括：利用所述第一标注数据集对所述第二数据标注模型进行迭代训练，并在训练参数收敛后，输出数据标注迭代模型；利用所述数据标注迭代模型对所述原始数据进行自动标注，得到所述第二标注数据集。4.根据权利要求1至3中任一所述的数据标注方法，其特征在于，所述原始数据包括以下至少之一：图片、视频、雷达点云、文本、语音。5.一种数据标注系统，其特征在于，所述系统包括有：数据采集模块，用于获取原始数据；人工标注模块，用于对所述原始数据进行人工标注，得到第一标注数据集；模型训练模块，用于将所述第一标注数据集输入至预设神经网络模型中进行训练，并在训练参数收敛后，...

【专利技术属性】
技术研发人员：张晓，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人