一种多标签分类模型训练方法、数据处理方法及装置制造方法及图纸

技术编号:22565744 阅读:29 留言:0更新日期:2019-11-16 12:18
本申请公开一种多标签分类模型训练方法、数据处理方法及装置,属于图像处理技术领域。该方法包括:利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值;获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据;利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。该方法大大节省了训练多标签分类模型的标注成本,提高了多标签分类模型训练效率。

A multi label classification model training method, data processing method and device

The application discloses a multi label classification model training method, a data processing method and a device, belonging to the technical field of image processing. The method includes: training the J-TAG classification model with the sample data of i-TAG, the J-TAG classification model includes J independent binary classifiers, each of which has a classification threshold; obtaining the optimal classification threshold obtained by training each of the binary classifiers, and updating the current classification threshold of each of the binary classifiers to the corresponding maximum Optimal classification threshold; based on the classification results of each binary classifier on the sample data of the i-TAG, the sample data of the k-tag is annotated twice to get the sample data of the k-tag; the updated J-TAG classification model is trained with the sample data of the k-tag. This method greatly saves the label cost of training multi label classification model and improves the training efficiency of multi label classification model.

【技术实现步骤摘要】
一种多标签分类模型训练方法、数据处理方法及装置
本申请属于图像处理
,具体涉及一种多标签分类模型训练方法、数据处理方法及装置。
技术介绍
图像分类任务中,单一图像往往携带多种标签的特征,多标签分类是非常自然的一种需求。目前多标签分类模型训练需要多标签数据,但完善的多标签数据较难获得。目前获取多标签数据通常由工作人员人为观察图像,并对图像人工标注,以得到图像的多个分类标签。然而,当标签体系中的分类标签非常多时,工作人员需要依次人工标注图像是否属于标签体系中的每一个分类标签,耗时较长,且人工成本较高。
技术实现思路
鉴于此,本申请的目的在于提供一种多标签分类模型训练方法、数据处理方法及装置,以改善现有技术中基于多标签数据训练多标签分类模型时,获取多标签数据所存在的耗时较长以及成本较高的问题。本申请的实施例是这样实现的:第一方面,本申请实施例提供了一种多标签分类模型训练方法,包括:利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。本申请实施例中,在对多标签(j标签)分类模型的训练过程中,先通过标签数量较低的i标签数据进行训练,然后基于标签数量较低的i标签数据的分类结果对i标签数据进行二次标注,得到标签数量较大k标签数据,然后基于k标签数据再次进行训练。一方面,因为在训练过程中,可以根据前次训练结果标注下次使用到的数据,获取到更多标签的训练数据,另一方面,因为在获取标注数据的过程中,同时开始了模型训练,所以该方法大大节省了多标签数据的标注成本,提高了多标签分类模型训练效率,可以改善现有技术中基于多标签数据训练多标签分类模型时,获取多标签数据所存在的耗时较长以及成本较高的问题。结合第一方面实施例,在一种可能的实施方式下,获取每个所述二元分类器经训练得到的最优分类阈值,包括:获取每个所述二元分类器对所述i标签的样本数据的分类结果的概率分布,得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线;基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值。本申请实施例通过通过获取每个二元分类器对i标签的样本数据的分类结果的概率分布而得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线,然后再基于各自的第一概率曲线和第二概率曲线,获取各自对应的最优分类阈值,确保了所得的最优分类阈值的准确性和可靠性。结合第一方面实施例,在一种可能的实施方式下,基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值,包括:判断每个所述二元分类器各自对应的所述第一概率曲线与所述第二概率曲线是否交叉;在为是时,确定所述第一概率曲线与所述第二概率曲线交叉处所对应的分类阈值为该二元分类器的所述最优分类阈值;在为否时,确定位于所述第一概率曲线与所述第二概率曲线之间的分类阈值为该二元分类器的所述最优分类阈值。本申请实施例中,通过判断每个二元分类器各自对应的第一概率曲线与第二概率曲线是否交叉来确定该二元分类器的最优分类阈值,这种方式确保了所得的最优分类阈值的准确性和可靠性。结合第一方面实施例,在一种可能的实施方式下,基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,包括:获取每个所述二元分类器对所述样本数据的分类结果;对所述分类结果为正类的i标签的样本数据进行二次标注,使所述分类结果为正类的样本数据带有对应分类器的正向标签。本申请实施例中,基于每个二元分类器的分类结果对分类结果为正类的i标签的样本数据进行二次标注,使得分类结果为正类的样本数据带有对应分类器的正向标签,从而能快速获得多标签的样本数据,大大节省了人工去标注多标签的样本数据所需成本,提高了训练效率。结合第一方面实施例,在一种可能的实施方式下,在利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练之后,所述方法还包括:获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述k标签的样本数据的分类结果对所述样本数据进行二次标注,得到j标签的样本数据;利用所述j标签的样本数据对更新后的所述j标签分类模型进行训练,得到训练好的所述j标签分类模型。本申请实施例中,通过反复的更新每个二元分类器的最优分类阈值,并多次基于每个二元分类器的分类结果对样本数据进行二次标注,然后再利用标注的样本数据对j标签分类模型进行训练,以保证标注结果的准确性以及提高模型的性能。结合第一方面实施例,在一种可能的实施方式下,利用所述j标签的样本数据对更新后的所述j标签分类模型进行训练,包括:对所述j标签的样本数据进行特征提取,得到特征向量;利用所述特征向量对更新后的所述j标签分类模型进行训练。第二方面,本申请实施例还提供了一种数据处理方法,包括:获取待分类的目标样本数据;对所述目标样本数据进行特征提取,得到特征向量;利用上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法训练得到的j标签分类模型对所述特征向量进行处理,得到分类结果。本申请实施例中,利用部分标注的i标签(所需的人工标注成本较低)的样本数据如单标签数据训练得到的多标签分类模型对待待分类的目标样本数据进行分类处理,能大大节省训练多标签分类模型的成本,从而提高分类的效率。第三方面,本申请实施例还提供了一种多标签分类模型训练装置,包括:训练模块、获取模块以及标注模块;训练模块,用于利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;获取模块,用于获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;标注模块,用于基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;训练模块,还用于利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。第四方面,本申请实施例还提供了一种数据处理装置,包括:获取模块、提取模块以及处理模块;获取模块,用于获取待分类的目标样本数据;提取模块,用于对所述目标样本数据进行特征提取,得到特征向量;处理模块,用于利用上述第三方面实施例提供的多标签分类模型训练装置训练得到的j标签分类模型对所述特征向量进行处理,得到分类结果。第五方面,本申请实施例本文档来自技高网...

【技术保护点】
1.一种多标签分类模型训练方法,其特征在于,包括:/n利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;/n获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;/n基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;/n利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。/n

【技术特征摘要】
1.一种多标签分类模型训练方法,其特征在于,包括:
利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;
获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;
基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;
利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。


2.根据权利要求1所述的方法,其特征在于,获取每个所述二元分类器经训练得到的最优分类阈值,包括:
获取每个所述二元分类器对所述i标签的样本数据的分类结果的概率分布,得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线;
基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值。


3.根据权利要求2所述的方法,其特征在于,基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值,包括:
判断每个所述二元分类器各自对应的所述第一概率曲线与所述第二概率曲线是否交叉;
在为是时,确定所述第一概率曲线与所述第二概率曲线交叉处所对应的分类阈值为该二元分类器的所述最优分类阈值;
在为否时,确定位于所述第一概率曲线与所述第二概率曲线之间的分类阈值为该二元分类器的所述最优分类阈值。


4.根据权利要求1所述的方法,其特征在于,基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,包括:
获取每个所述二元分类器对所述i标签的样本数据的分类结果;
对所述分类结果为正类的i标签的样本数据进行二次标注,使所述分类结果为正类的样本数据带有对应分类器的正向标签。


5.根据权利要求1-4任一项所述的方法,其特征在于,在利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练之后,所述方法还包括:
获取每个所述二元分类器经...

【专利技术属性】
技术研发人员:张凌寒陈权郑敏鹏
申请(专利权)人:图谱未来南京人工智能研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1