【技术实现步骤摘要】
清洗错误标注数据的方法、装置、计算机设备及存储介质
本专利技术涉及数据处理领域,特别涉及清洗错误标注数据的方法、装置、计算机设备及存储介质。
技术介绍
现阶段,很多人工智能/深度学习模型是建立在有准确标注数据的基础上的有监督模型;而准确标注的数据的获得需要大量的成本,且很多标注数据难以避免地有一些错误标注的数据,这会大大地影响训练出的模型。现有技术中,对标注数据的准确性的检验大多基于人工的交叉检验,这种方式效率低、且准确性有待提高。
技术实现思路
本专利技术的目的是提供清洗错误标注数据的方法、装置、计算机设备及存储介质,旨在解决现有技术中数据校验方式效率低、准确性有待提高的问题。本专利技术实施例提供一种清洗错误标注数据的方法,其包括:训练一深度学习的分类模型,所述分类模型的损失函数是logloss_fl;采用训练好的分类模型推理每一个样本,得到每一个样本的预测概率pij,i=1,2,…,N;j=1,2,…,C;计算每一个样本的损失函数logloss_fl,得到N=1时的每个样本的l ...
【技术保护点】
1.一种清洗错误标注数据的方法,其特征在于,包括:/n训练一深度学习的分类模型,所述分类模型的损失函数是logloss_fl;/n采用训练好的分类模型推理每一个样本,得到每一个样本的预测概率p
【技术特征摘要】
1.一种清洗错误标注数据的方法,其特征在于,包括:
训练一深度学习的分类模型,所述分类模型的损失函数是logloss_fl;
采用训练好的分类模型推理每一个样本,得到每一个样本的预测概率pij,i=1,2,…,N;j=1,2,…,C;
计算每一个样本的损失函数logloss_fl,得到N=1时的每个样本的logloss_fl;
其中,N为样本数,C为类别数,yij等于1表示第i条样本的类别为j,yij等于0表示第i条样本的类别不为j,γ为超参;
将各个样本的logloss_fl,进行从大到小的排序;
取出排序靠前的若干样本,并标注为错误样本。
2.根据权利要求1所述的清洗错误标注数据的方法,其特征在于,γ大于1。
3.根据权利要求2所述的清洗错误标注数据的方法,其特征在于,γ大于1且小于2。
4.根据权利要求3所述的清洗错误标注数据的方法,其特征在于,γ为1.5。
5.根据权利要求1所述的清洗错误标注数据的方法,其特征在于,所述取出排序靠前的若干样本,并标注为错误样本,包括:
将logloss_fl大于阈值的若干样本取出,并标注为错误样本。
6.根据权利要求1所述的清洗错误标注数据的方法,其特征在于,所述取出排序靠前的若干样本,并标注为错误样本之后,还包括:
重新标注...
【专利技术属性】
技术研发人员:黄鸿康,涂天牧,刘新宇,赵寒枫,
申请(专利权)人:深圳市信联征信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。