The application discloses a multi label classification model training method, a data processing method and a device, belonging to the technical field of image processing. The method includes: training the J-TAG classification model with the sample data of i-TAG, the J-TAG classification model includes J independent binary classifiers, each of which has a classification threshold; obtaining the optimal classification threshold obtained by training each of the binary classifiers, and updating the current classification threshold of each of the binary classifiers to the corresponding maximum Optimal classification threshold; based on the classification results of each binary classifier on the sample data of the i-TAG, the sample data of the k-tag is annotated twice to get the sample data of the k-tag; the updated J-TAG classification model is trained with the sample data of the k-tag. This method greatly saves the label cost of training multi label classification model and improves the training efficiency of multi label classification model.
【技术实现步骤摘要】
一种多标签分类模型训练方法、数据处理方法及装置
本申请属于图像处理
,具体涉及一种多标签分类模型训练方法、数据处理方法及装置。
技术介绍
图像分类任务中,单一图像往往携带多种标签的特征,多标签分类是非常自然的一种需求。目前多标签分类模型训练需要多标签数据,但完善的多标签数据较难获得。目前获取多标签数据通常由工作人员人为观察图像,并对图像人工标注,以得到图像的多个分类标签。然而,当标签体系中的分类标签非常多时,工作人员需要依次人工标注图像是否属于标签体系中的每一个分类标签,耗时较长,且人工成本较高。
技术实现思路
鉴于此,本申请的目的在于提供一种多标签分类模型训练方法、数据处理方法及装置,以改善现有技术中基于多标签数据训练多标签分类模型时,获取多标签数据所存在的耗时较长以及成本较高的问题。本申请的实施例是这样实现的:第一方面,本申请实施例提供了一种多标签分类模型训练方法,包括:利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。本申请实施例中,在对多标签(j ...
【技术保护点】
1.一种多标签分类模型训练方法,其特征在于,包括:/n利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;/n获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;/n基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;/n利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。/n
【技术特征摘要】
1.一种多标签分类模型训练方法,其特征在于,包括:
利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;
获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;
基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;
利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。
2.根据权利要求1所述的方法,其特征在于,获取每个所述二元分类器经训练得到的最优分类阈值,包括:
获取每个所述二元分类器对所述i标签的样本数据的分类结果的概率分布,得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线;
基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值。
3.根据权利要求2所述的方法,其特征在于,基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值,包括:
判断每个所述二元分类器各自对应的所述第一概率曲线与所述第二概率曲线是否交叉;
在为是时,确定所述第一概率曲线与所述第二概率曲线交叉处所对应的分类阈值为该二元分类器的所述最优分类阈值;
在为否时,确定位于所述第一概率曲线与所述第二概率曲线之间的分类阈值为该二元分类器的所述最优分类阈值。
4.根据权利要求1所述的方法,其特征在于,基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,包括:
获取每个所述二元分类器对所述i标签的样本数据的分类结果;
对所述分类结果为正类的i标签的样本数据进行二次标注,使所述分类结果为正类的样本数据带有对应分类器的正向标签。
5.根据权利要求1-4任一项所述的方法,其特征在于,在利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练之后,所述方法还包括:
获取每个所述二元分类器经...
【专利技术属性】
技术研发人员:张凌寒,陈权,郑敏鹏,
申请(专利权)人:图谱未来南京人工智能研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。