【技术实现步骤摘要】
一种基于边框回归的数据标注校正方法
本专利技术涉及深度学习
,尤其涉及一种基于边框回归的数据标注校正方法。
技术介绍
当前以深度学习为核心的人工智能技术在工业视觉、自然语言处理、自动驾驶等领域取得突破性的进展。其中,在工业质检领域,卷积神经网络对缺陷分类的精度已经超过人眼,对缺陷的识别速度更是远超人类,准确率和检测效率的大幅提升使得以深度学习为关键技术的工业检测方案和设备进入产业化阶段。深度学习是大数据时代的算法利器,有着传统机器学习难以超越的算法表现,但是深度学习对训练数据的依赖量是巨大的。在实际的工业场景中,高质量数据获取的难度较大,同时数据标注的时间和人力成本较高。而且对于一些困难样本,不同的标注人员的主观意识不同,对于困难样本的标注一致性很难得到保证。对于深度学习来说,数据标注的一致性,会直接影响模型训练的过程,不一致的数据标注,常常会导致训练后模型推理的不稳定性,加大算法模型调优的难度。可以说,数据标注是人工智能行业的基石,数据对于模型性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越 ...
【技术保护点】
1.一种基于边框回归的数据标注校正方法,其特征在于,包括如下步骤:/nS1:将数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据;/nS2:使用焦点损失函数改进目标检测算法YOLO V5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存m个训练模型,其中m为大于10的整数;/nS3:将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存;/nS4:针对每一张图片将m个训练模型所有的推理结果进行汇总,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标 ...
【技术特征摘要】
1.一种基于边框回归的数据标注校正方法,其特征在于,包括如下步骤:
S1:将数据根据首次标注过程中的难易程度和对标注结果的置信度,分为gold标注和hard标注的两批样本数据;
S2:使用焦点损失函数改进目标检测算法YOLOV5,再使用gold标注的样本数据进行训练,待训练模型训练稳定后,每隔固定迭代次数保存m个训练模型,其中m为大于10的整数;
S3:将保存的m个训练模型在hard标注的样本数据上进行推理,根据推理结果形成的所有图片进行离线保存;
S4:针对每一张图片将m个训练模型所有的推理结果进行汇总,对所有的边框进行聚类,聚类的簇数目设置为当前图片上真实目标的个数;
S5:统计每簇内的边框数量,若边框数量<m/2,则认为预测结果置信度低,保持人工的方式进行标注;若边框数量≥m/2,则认为预测结果置信度高,则进入S6;
S6:对S5中同簇内所有边框的上下左右四个边界点进行一般分布建模;
S7:根据S6中的建模结果,校正边框的位置。
2.如权利要求1所述的基于边框回归分布的数据标注校正方法,其特征在于,在步骤S2中还包括步骤S21:焦点损失函数包含QFL和DFL,分别如公式(1)和(2)所得;
(1);
(2);
公式(1)中,σ表示分类得分,y代表定位的置信度得分,β是调节分类得分和定位置信度得分之间绝对距离的调节因子;公式(2)中,Si表示yi经过softmax函数之后的结果。
3.如权利要求2所述的基于边框回归分布的数据标注校正方法,其特征在于,在步骤S2中还包括步骤S22:当训练的QFL和DFL累加后的总和不再大幅度...
【专利技术属性】
技术研发人员:糜泽阳,郑军,
申请(专利权)人:聚时科技江苏有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。