一种基于Focal损失函数的在线困难样本挖掘方法及系统技术方案

技术编号：37256123 阅读：19 留言：0更新日期：2023-04-20 23:32

本发明专利技术涉及一种基于Focal损失函数的在线困难样本挖掘方法及系统，属于图像识别技术领域。方法为：将图像进行图像识别类模型训练，生成样本属于各个类别的概率，获得预测结果；结合样本标签与得到的图像预测结果对各样本进行在线挖掘，挖掘出困难样本，对挖掘出的困难样本进行自适应加权，计算损失；根据损失值回传样本梯度优化模型，验证当前模型有效性，判断模型是否达到指定步数，并保存整个训练过程中评价指标最优的模型。本发明专利技术通过结合样本层面与损失函数层面，先采样得到困难样本，再对困难样本做自适应的加权，得到一种在图像识别中解决样本不均衡问题的通用性方法，该方法同时可以实现单阶段、端到端、在线式的样本挖掘与模型训练。与模型训练。与模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Focal损失函数的在线困难样本挖掘方法及系统

[0001]本专利技术涉及一种困难样本挖掘方法，特别涉及一种基于Focal损失函数的在线困难样本挖掘方法及系统，可适用于所有基于分类的图像识别任务，包括图像分类任务以及图像分割任务等，属于深度学习的图像识别

技术介绍

[0002]图像识别技术是深度学习中非常基础且重要的分支，类似于人类对图像内容的识别，图像识别技术的主要任务是通过提取图像的包括纹理、形状等特征，在图像级或像素级上对图像内容进行理解，并用于下游分类、检测以及分割等任务的实现。
[0003]随着深度学习的发展，样本充足的图像识别任务已经能够在效果和效率之间取得较好的平衡，ResNet、FPN、Deeplab等算法将图像识别任务的精度大幅提升。但样本不均衡的问题一直存在并阻碍着图像识别任务的进一步发展，典型的处理样本不均衡问题的方法可分为样本层面、损失函数层面等。
[0004]从样本层面可以通过采样的方式使不同样本数量达到均衡，常用方法有随机过采样与随机欠采样，过采样会尽可能多地增加少数类的样本数量，欠采样会减少多数类的样本数量。但随机过采样有可能引入片面噪声，导致模型过拟合，而随机欠采样可能会导致丢失含有重要信息的样本。
[0005]少数类样本因其数量少、难以有效地进行特征学习，因此又被称为困难样本，基于困难样本解决样本不均衡问题的方法又被称为困难样本挖掘。
[0006]从损失函数层面可以通过对不同样本赋予不同大小的权重处理样本不均衡问题，具体做法是对少数类...

【技术保护点】

【技术特征摘要】
1.一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，包括步骤：S1.将图像进行图像识别模型训练，基于分类任务的图像识别模型会生成样本属于各个类别的概率，获得预测结果；S2.结合样本标签与得到的图像预测结果对各样本进行在线挖掘，挖掘出困难样本，对挖掘出的困难样本进行自适应加权，计算损失；通过设置阈值的方式进行采样，以预测概率作为采样标准，将每个样本的预测概率与进行比较，采样出小于的样本即困难样本，舍弃其他样本；基于Focal损失函数对当前困难样本做进一步的加权，加入权重系数；利用如下公式计算损失：，其中，N属于样本数，此处是每张图像中的像素数量；M为类别数，i代表图像中的第i个像素点，其取值范围为{1,2,3,
…
,N}；j代表第j类，其取值范围为{1,2,
…
,M}；为指示函数，若样本i的真实类别y
i
等于j则，否则；为样本i属于类别j的概率值；为预先设置的阈值，>0为可调节因子；S3.根据损失值计算样本梯度并更新网络参数从而实现图像识别模型的优化，验证当前图像识别模型有效性，得到当前图像识别模型的评价指标，判断模型是否达到指定步数，若达到指定步数则停止训练，若未达到指定步数则继续训练，在此过程中保存整个训练过程中评价指标最优的模型。2.根据权利要求1所述的一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，S1所述的图像识别模型包括图像分类任务模型、图像分...

【专利技术属性】
技术研发人员：孙启玉，刘玉峰，孙平，
申请(专利权)人：山东锋士信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人