基于多模型的样本标注方法及装置制造方法及图纸

技术编号:21185417 阅读:70 留言:0更新日期:2019-05-22 16:02
本发明专利技术公开了一种基于多模型的样本标注方法及装置,其中,方法包括:S1,根据训练样本集中的已标注样本图片以及已标注样本图片的标注信息对联合模型所包含的各个子模型进行训练更新得到更新后的联合模型;S2,将训练样本集中的未标注样本图片输入至更新后的联合模型所包含的各个子模型中进行预测处理得到各个子模型输出的预测结果;S3,根据各个子模型输出的预测结果进行相互校验,根据校验结果确定未标注样本图片的标注信息;S4,判断更新后的联合模型是否满足预设的模型迭代终止条件;若否,执行步骤S5;S5,在训练样本集中将已确定标注信息的未标注样本图片归类为已标注样本图片,执行步骤S1。本发明专利技术的方法能够实现对未标注图片进行准确标注。

Sample labeling method and device based on Multi-model

The invention discloses a sample annotation method and device based on multi-model, which includes: S1, training and updating each sub-model contained in the joint model according to the annotated sample pictures in the training sample set and the annotated sample Pictures'annotated information; S2, input the unlabeled sample pictures in the training sample set into the updated joint model. The prediction results of each sub-model included in the joint model are obtained by the prediction processing of each sub-model. In S3, the prediction results of each sub-model are checked mutually, and the labeling information of unlabeled sample pictures is determined according to the verification results. In S4, it is judged whether the updated joint model satisfies the preset termination conditions of model iteration. If not, execute E 5. S5, in the training sample set, the unmarked sample pictures with the identified annotated information are classified as the annotated sample pictures, and the is executed. The method of the present invention can realize the accurate annotation of unmarked pictures.

【技术实现步骤摘要】
基于多模型的样本标注方法及装置
本专利技术涉及计算机视觉
,具体涉及一种基于多模型的样本标注方法及装置。
技术介绍
近些年来,深度学习技术得到了学术界广泛的关注,大量新的研究使其完成许多任务的能力接近甚至超过了人类水平,因此在业界中已经得到了广泛的应用。在很多领域,深度学习算法都可以替代原来的人工操作,这不仅降低了人工成本,还大幅降低了出错的概率和风险。比如,在目前安防领域中常用的行人检测以及人脸识别、金融领域常用的人证合一验证、新零售中常用的商品识别等等。由于目前的主流深度学习算法都是监督学习,模型的训练依赖大量的标注数据,其中,基于深度学习的神经网络模型需要的样本数量尤其巨大,这也是模型能够具有很高表现力和鲁棒性的原因。在实际应用中,采集大量样本图像然后进行人工打标有两方面的限制:第一,需要大量的时间和人工成本,影响模型的快速开发;第二,在一些情况下无法采集到足够的图片。因此,如何快速廉价获取标注样本是实现快速开发适应实际需求的模型的重要因素。现如今,越来越多的研究开始关注自动图像标注的问题,现有的方法往往是基于传统机器学习或者深度学习来预训练一个模型,然后利用模型进行预测的方式实现自动标注过程。然而,这种方式至少存在以下不足:首先,需要相对较多的样本,而能公开获取到的数据集种类相对较少,无法满足要求;其次,不能保证模型的准确性,导致后期还需要较多的人工校验。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于多模型的样本标注方法及装置。根据本专利技术的一个方面,提供了一种基于多模型的样本标注方法,方法包括:S1,根据训练样本集中的已标注样本图片以及已标注样本图片的标注信息对联合模型所包含的各个子模型进行训练更新,得到更新后的联合模型;S2,将训练样本集中的未标注样本图片输入至更新后的联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的预测结果;S3,根据各个子模型输出的预测结果进行相互校验,根据校验结果确定未标注样本图片的标注信息;S4,判断更新后的联合模型是否满足预设的模型迭代终止条件;若是,则本方法结束;若否,则执行步骤S5;S5,在训练样本集中将已确定标注信息的未标注样本图片归类为已标注样本图片,跳转执行步骤S1。可选地,预测结果包括:预测类别结果以及预测概率分值,则步骤S3进一步包括:针对每一个子模型,根据该子模型输出的各个预测类别结果所对应的概率分值确定该子模型的可信预测类别结果,其中,可信预测类别结果所对应的概率分值不小于第一预设分值阈值;根据各个子模型的可信预测类别结果进行相互校验,根据校验结果确定未标注样本图片的标注信息。可选地,根据各个子模型的可信预测类别结果进行相互校验,根据校验结果确定未标注样本图片的标注信息进一步包括:若各个子模型均未预测得到可信预测类别结果,则放弃确定未标注样本图片的标注信息;若各个子模型均预测得到相同的可信预测类别结果,则将可信预测类别结果确定为类别真值结果,根据类别真值结果确定未标注样本图片的标注信息;若预测得到相同的可信预测类别结果的子模型的数量超过预设数量阈值,则根据预测得到相同的可信预测类别结果的子模型的数量和/或可靠度分值判断相同的可信预测类别结果是否为类别真值结果,若是,根据类别真值结果确定未标注样本图片的标注信息;其中,预设数量阈值小于子模型的总数量且大于1;若每两个子模型预测得到的可信预测类别结果均不一致,则针对每一个子模型预测得到的可信预测类别结果,根据该子模型预设的可靠度分值确定该可信预测类别结果的可信度分值,判断该可信预测类别结果的可信度分值是否达到第二预设分值阈值,若是,则将该子模型的可信预测类别结果确定为类别真值结果,根据类别真值结果确定未标注样本图片的标注信息。可选地,当各个子模型分别为检测子模型时,预测结果还包括:预测位置结果,则根据类别真值结果确定未标注样本图片的标注信息进一步包括:根据类别真值结果确定未标注样本图片的分类标注信息;按照预设的融合处理规则对类别真值结果所对应的多个预测位置结果进行融合,根据融合结果确定未标注样本图片的位置标注信息。可选地,步骤S1具体包括:将训练样本集中的已标注样本图片输入至联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的训练预测结果;将各个子模型输出的训练预测结果与已标注样本图片的标注信息进行比对,得到各个子模型针对已标注样本图片的预测差异信息;利用预设的联合损失函数对各个子模型针对已标注样本图片的预测差异信息进行整合,根据整合结果对各个子模型的参数进行更新。可选地,根据整合结果对各个子模型的参数进行更新进一步包括:针对每一个子模型,每一次更新过程中,控制该子模型的第一参数保持不变,对该子模型的参数中除第一参数之外的第二参数进行更新。可选地,判断更新后的联合模型是否满足预设的模型迭代终止条件具体包括:依据预设的模型评估函数判断更新后的联合模型是否满足模型迭代终止条件;其中,预设的模型评估函数根据以下中的一种或多种因素而设计:模型准确率信息、模型召回率信息、模型复杂度信息。可选地,判断更新后的联合模型是否满足预设的模型迭代终止条件进一步包括:确定利用本次训练迭代得到的更新后的联合模型进行预测得到的已标注样本图片的数量,判断预测得到的已标注样本图片的数量是否不大于预设数量阈值。可选地,当各个子模型分别为检测子模型时,将已标注样本图片输入至联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的训练预测结果进一步包括:提取已标注样本图片的特征信息;根据已标注样本图片的标注信息确定可信候选区域,根据已标注样本图片的特征信息确定可信候选区域的特征信息;根据可信候选区域的特征信息预测已标注图片的训练预测结果,其中,训练预测结果包括:训练预测位置信息、训练预测类别信息。可选地,根据已标注图片的标注信息确定可信候选区域进一步包括:根据已标注样本图片的大小划分多个候选区域;确定已标注样本图片的标注信息所包含的位置标注信息所对应的目标区域,根据目标区域与各个候选区域的交并比信息对各个候选区域进行打分,将分值达到第三预设分值阈值的候选区域确定为可信候选区域。可选地,第一预设分值阈值以及第二预设分值阈值根据更新后的联合模型的预测准确度设置。根据本专利技术的另一方面,提供了一种基于多模型的样本标注装置,装置包括:训练更新模块,适于根据训练样本集中的已标注样本图片以及已标注样本图片的标注信息对联合模型所包含的各个子模型进行训练更新,得到更新后的联合模型;预测处理模块,适于将训练样本集中的未标注样本图片输入至更新后的联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的预测结果;标注模块,适于根据各个子模型输出的预测结果进行相互校验,根据校验结果确定未标注样本图片的标注信息;判断模块,适于判断更新后的联合模型是否满足预设的模型迭代终止条件;归类模块,适于在训练样本集中将已确定标注信息的未标注样本图片归类为已标注样本图片。可选地,预测结果包括:预测类别结果以及预测概率分值,则标注模块进一步适于:针对每一个子模型,根据该子模型输出的各个预测类别结果所对应的概率分值确定该子模型的可信预测类别结果,其中,可信预测类别结果所对应的概率分值不本文档来自技高网...

【技术保护点】
1.一种基于多模型的样本标注方法,其特征在于,所述方法包括:S1,根据训练样本集中的已标注样本图片以及所述已标注样本图片的标注信息对联合模型所包含的各个子模型进行训练更新,得到更新后的联合模型;S2,将训练样本集中的未标注样本图片输入至所述更新后的联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的预测结果;S3,根据所述各个子模型输出的预测结果进行相互校验,根据校验结果确定所述未标注样本图片的标注信息;S4,判断所述更新后的联合模型是否满足预设的模型迭代终止条件;若是,则本方法结束;若否,则执行步骤S5;S5,在训练样本集中将已确定标注信息的未标注样本图片归类为已标注样本图片,跳转执行所述步骤S1。

【技术特征摘要】
1.一种基于多模型的样本标注方法,其特征在于,所述方法包括:S1,根据训练样本集中的已标注样本图片以及所述已标注样本图片的标注信息对联合模型所包含的各个子模型进行训练更新,得到更新后的联合模型;S2,将训练样本集中的未标注样本图片输入至所述更新后的联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的预测结果;S3,根据所述各个子模型输出的预测结果进行相互校验,根据校验结果确定所述未标注样本图片的标注信息;S4,判断所述更新后的联合模型是否满足预设的模型迭代终止条件;若是,则本方法结束;若否,则执行步骤S5;S5,在训练样本集中将已确定标注信息的未标注样本图片归类为已标注样本图片,跳转执行所述步骤S1。2.根据权利要求1所述的方法,其特征在于,所述预测结果包括:预测类别结果以及预测概率分值,则所述步骤S3进一步包括:针对每一个子模型,根据该子模型输出的各个预测类别结果所对应的概率分值确定该子模型的可信预测类别结果,其中,所述可信预测类别结果所对应的概率分值不小于第一预设分值阈值;根据各个子模型的可信预测类别结果进行相互校验,根据校验结果确定所述未标注样本图片的标注信息。3.根据权利要求2所述的方法,其特征在于,所述根据各个子模型的可信预测类别结果进行相互校验,根据校验结果确定所述未标注样本图片的标注信息进一步包括:若各个子模型均未预测得到可信预测类别结果,则放弃确定所述未标注样本图片的标注信息;若各个子模型均预测得到相同的可信预测类别结果,则将所述可信预测类别结果确定为类别真值结果,根据类别真值结果确定所述未标注样本图片的标注信息;若预测得到相同的可信预测类别结果的子模型的数量超过预设数量阈值,则根据预测得到所述相同的可信预测类别结果的子模型的数量和/或可靠度分值判断所述相同的可信预测类别结果是否为类别真值结果,若是,根据类别真值结果确定所述未标注样本图片的标注信息;其中,所述预设数量阈值小于子模型的总数量且大于1;若每两个子模型预测得到的可信预测类别结果均不一致,则针对每一个子模型预测得到的可信预测类别结果,根据该子模型预设的可靠度分值确定该可信预测类别结果的可信度分值,判断该可信预测类别结果的可信度分值是否达到第二预设分值阈值,若是,则将该子模型的可信预测类别结果确定为类别真值结果,根据类别真值结果确定所述未标注样本图片的标注信息。4.根据权利要求3所述的方法,其特征在于,当所述各个子模型分别为检测子模型时,所述预测结果还包括:预测位置结果,则根据类别真值结果确定所述未标注样本图片的标注信息进一步包括:根据所述类别真值结果确定所述未标注样本图片的分类标注信息;按照预设的融合处理规则对所述类别真值结果所对应的多个预测位置结果进行融合,根据融合结果确定所述未标注样本图片的位置标注信息。5.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:将训练样本集中的已标注样本图片输入至联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的训练预测结果;将所述各个子模型输出的训练预测结果与所述已标注样本图片的标注信息进行比对,得到所述各个子模型针对所述已标注样本图片的预测差异信息;利用预设的联合损失函数对所述各个子模型针对所述已标注样本图片的预测差异信息进行整合,根据整合结果对所述各个子模型的参数进行更新。6.根据权利要求5所述的方法,其特征在于,所述根据整合结果对所述各个子模型的参数进行更新进一步包括:针对每一个子模型,每一次更新过程中,控制该子模型的第一参数保持不变,对该子模型的参数中除第一参数之外的第二参数进行更新。7.根据权利要求1所述的方法,其特征在于,所述判断所述更新后的联合模型是否满足预设的模型迭代终止条件具体包括:依据预设的模型评估函数判断所述更新后的联合模型是否满足模型迭代终止条件;其中,所述预设的模型评估函数根据以下中的一种或多种因素而设计:模型准确率信息、模型召回率信息、模型复杂度信息。8.根据权利要求7所述的方法,其特征在于,所述判断所述更新后的联合模型是否满足预设的模型迭代终止条件进一步包括:确定利用本次训练迭代得到的更新后的联合模型进行预测得到的已标注样本图片的数量,判断所述预测得到的已标注样本图片的数量是否不大于预设数量阈值。9.根据权利要求5所述的方法,其特征在于,当所述各个子模型分别为检测子模型时,所述将已标注样本图片输入至联合模型所包含的各个子模型中进行预测处理,得到各个子模型输出的训练预测结果进一步包括:提取所述已标注样本图片的特征信息;根据所述已标注...

【专利技术属性】
技术研发人员:樊宗
申请(专利权)人:杭州比智科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1