【技术实现步骤摘要】
训练集的修正方法及装置
本专利技术涉及数据处理
,特别是涉及一种训练集的修正方法及一种训练集的修正装置。
技术介绍
分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(也即通常所说的分类器)。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。在做图像分类的任务中,需要事先标注出大量的图像作为训练集,比如在做猫狗图像分类的任务中,需要先从互联网上抓取大量的图片,然后人工标注出是猫和狗的图片,标注得到训练集后,根据得到的训练集训练出分类器。训练集的质量对于分类模型的效果影响较大,不准确的训练集训练出的分类模型准确性也不会很高。但是,一种情况是,在人工标注样本的过程中,标注时间长了以后人会由于精力不足可能造成错标,或者由于人的粗心大意不可避免地造成错标,当要标注的数据量大后错标的数量会更大。另一种情况是,当要标注的图片人工分类时就容易错标的情况。比如在做黄反的分类中,要训练的分类模型需要正确将图片分类成色情、性感、正常三类,其中的性感一类容易错标,因为性感很主观,不同的标注人员 ...
【技术保护点】
1.一种训练集的修正方法,其特征在于,所述方法包括:利用当前训练集中的已标注图像训练得到当前分类模型;依据所述当前分类模型判断是否继续修正所述当前训练集;若是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回所述利用当前训练集中的已标注图像训练得到当前分类模型的步骤。
【技术特征摘要】
1.一种训练集的修正方法,其特征在于,所述方法包括:利用当前训练集中的已标注图像训练得到当前分类模型;依据所述当前分类模型判断是否继续修正所述当前训练集;若是,则利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像;针对所述待修正的已标注图像进行重新标注,以便修正所述当前训练集,并返回所述利用当前训练集中的已标注图像训练得到当前分类模型的步骤。2.根据权利要求1所述的方法,其特征在于,所述利用所述当前分类模型,从所述当前训练集中查找待修正的已标注图像的步骤,包括:利用所述当前分类模型,分别提取所述当前训练集中的每个已标注图像的特征向量;依据所述特征向量对所述当前训练集中的已标注图像进行聚类,得到至少两个聚类簇;分别从每个聚类簇中的已标注图像中查找待修正的已标注图像。3.根据权利要求2所述的方法,其特征在于,所述分别从每个聚类簇中的已标注图像中查找待修正的已标注图像的步骤,包括:分别计算所述聚类簇中的每个已标注图像的特征向量到所述聚类簇的质心的距离;从所述聚类簇中提取出与所述质心距离最大的预设数量的已标注图像,作为待修正的已标注图像。4.根据权利要求1所述的方法,其特征在于,所述依据所述当前分类模型判断是否继续修正所述当前训练集的步骤,包括:计算所述当前分类模型在所述当前训练集上的训练误差;判断所述训练误差是否小于设定阈值;若否,则确定继续修正所述当前训练集。5.根据权利要求4所述的方法,其特征在于,所述计算所述当前分类模型在所述当前训练集上的训练误差的步骤,包括:利用所述当前分类模型分别识别所述当前训练集中的每个已标注图像的类别;针对每个已标注图像,将已标注的类别与所述当前分类模型识别的类别进行比较;依据比较结果计算所述当前分类模型对所述已标注图像识别的错误率,将所述错误率作为所述当前分类模型在所述当前训练集上的训练误差。6.一种训练集的修正装置,其...
【专利技术属性】
技术研发人员:马龙飞,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。