一种数据修正方法、装置及电子设备制造方法及图纸

技术编号：36911301 阅读：28 留言：0更新日期：2023-03-18 09:29

本申请实施例提供一种数据修正方法、装置及电子设备。在本实施例中，通过在将标注数据作为训练数据训练神经网络模型的过程中，确定标注数据中需要进行复核的待复核的标注数据集，以便于对待复核的标注数据集中各标注数据的标注标签进行复核修正，提高训练数据的标注质量，进而提高模型训练的性能，将该方法应用在检测场景时，则提高训练出的深度学习模型进行检测时的检测准确度，将该方法应用在分类场景时，则提高训练出的深度学习模型进行分类时的分类准确度，进一步地，在将标注数据作为训练数据训练神经网络模型的过程中，确定标注数据中需要进行复核的待复核的标注数据集，实现了自动找出标注错误的标注数据，提高标注数据的修正效率。的修正效率。的修正效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据修正方法、装置及电子设备

[0001]本申请涉及人工智能
，尤其涉及一种数据修正方法、装置及电子设备。

技术介绍

[0002]深度学习模型(例如，检测模型、分类模型等)的性能依赖于训练数据集的规模以及其标注质量，训练数据集越大且标注质量越高，深度学习模型的性能通常也就越好。目前，常用的标注方法是人工对训练数据集中的训练数据进行标注，但是由于标注人员的经验不足、粗心等，可能会导致出现标注错误，训练数据集的标注质量低，导致利用该训练数据集训练得到的深度学习模型性能差。比如在检测场景时，则训练出的深度学习模型进行检测时，就会出现检测误差；再比如在分类场景时，训练出的深度学习模型进行分类时，就会出现分类误差。

技术实现思路

[0003]有鉴于此，本申请实施例提供一种数据修正方法、装置及电子设备，以对已标注的训练数据进行修正，提高模型训练的性能。
[0004]根据本申请实施例的第一方面，提供一种数据修正方法，所述方法应用于电子设备，所述方法包括：
[0005]在将标注数据作为训练数据训练神...

【技术保护点】

【技术特征摘要】
1.一种数据修正方法，其特征在于，所述方法应用于电子设备，所述方法包括：在将标注数据作为训练数据训练神经网络模型的过程中，利用每次迭代训练出的神经网络模型预测所述标注数据属于被指定的标注标签的概率分布，得到所述标注数据的预测结果；依据各标注数据的预测结果，确定待复核的标注数据集，以对所述待复核的标注数据集中各标注数据的标注标签进行复核修正。2.根据权利要求1所述的方法，其特征在于，所述利用每次迭代训练出的神经网络模型预测所述标注数据属于被指定的标注标签的概率分布，得到所述标注数据的预测结果，包括：以当前神经网络模型为基础，并将所述标注数据作为训练数据进行模型训练，得到训练出的神经网络模型；利用训练出的神经网络模型预测所述标注数据属于被指定的标注标签的概率分布，得到所述标注数据的预测结果；当所述训练出的神经网络模型不满足预设迭代条件时，返回以当前神经网络模型为基础，并将所述标注数据作为训练数据进行模型训练得到训练出的神经网络模型的步骤。3.根据权利要求1所述的方法，其特征在于，所述依据各标注数据的预测结果，确定待复核的标注数据集，包括：针对每一标注数据，对已得到的该标注数据的预测结果进行融合，得到预测融合值；基于各标注数据的预测融合值，确定待复核的标注数据集。4.根据权利要求3所述的方法，其特征在于，所述对已得到的该标注数据的预测结果进行融合，得到预测融合值，包括：按照以下公式对已得到的该标注数据的预测结果进行融合：其中，s表示该标注数据的预测融合值，E为迭代次数；表示预测结果中第e次迭代时对应的预测概率；所述预测概率是指第e次迭代训练出的神经网络模型预测出的标注数据属于被指定的标注标签的概率分布中为该标注数据被标注的标注标签的概率。5.根据权利要求1至4任一项所述的方法，其特征在于，所述神经网络模型在训练时，采用如下损失函数：其中，表示损失函数；p为神经网络模型每次预测出的标注数据属于被指定的标注标签的概率分布，y
gt

【专利技术属性】
技术研发人员：陈明健，
申请(专利权)人：上海高德威智能交通系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人