一种基于自学习标注的标注模型训练方法及标注方法技术

技术编号:34327982 阅读:16 留言:0更新日期:2022-07-31 01:31
本发明专利技术提供了一种基于自学习标注的标注模型训练方法及标注方法,旨在解决人力成本较高的问题。标注模型训练方法:S100、从原始数据集中抽取数据进行人工标注获得初始训练数据集,并训练标注模型;S200、将剩余数据采用标注模型标注,输出识别结果和置信度;S300、划分出低置信度数据集和其他数据集,对低置信度数据集进行审查;S400、若审查结果不满足预设条件,执行步骤S500;若审查结果满足预设条件,执行步骤S600;S500、对低置信度数据进行人工标注,并训练标注模型;对其他数据集中的数据进行模型标注,输出识别结果和置信度;按照置信度将其他数据集划分为低置信度数据集和其他数据集,低置信度数据集进行审查,并执行步骤S400;S600、获得达标标注模型。获得达标标注模型。获得达标标注模型。

【技术实现步骤摘要】
一种基于自学习标注的标注模型训练方法及标注方法


[0001]本专利技术属于标注
,具体涉及一种基于自学习标注的标注模型训练方法及标注方法。

技术介绍

[0002]图像识别模型等需要学习训练的一些模型,在学习训练之前,需要配置大量的标注数据用于模型的训练。获取标注数据的方式一般有两种:一种是采用人工标注,采用人工标注需要大量的人力;另一种是采用训练好的标注模型进行自动标注,可以高效的完成数据标注。
[0003]但是在对于新的标注模型本身进行训练时或对于一些旧的标注模型进行更新训练时,没有成熟的标注模型来标注,需要人工标注大量的训练数据,为了达到较好的标注模型,有些训练数据往往需要几百万个,甚至几千万个,大量的标注数据采用人工标注,这样会浪费大量的人力成本。

技术实现思路

[0004]本专利技术提供了一种基于自学习标注的标注模型训练方法及标注方法,旨在解决现有技术中对于新的标注模型本身进行训练时或对于一些旧的标注模型进行更新训练时,需要人工标注大量的训练数据,导致人力成本较高的问题。
[0005]为了解决上述技术问题,本专利技术所采用的技术方案为:
[0006]第一方面,本专利技术提供了一种基于自学习标注的标注模型训练方法,包括以下步骤:
[0007]S100、从原始数据集中的m个数据中抽取m1个数据进行人工标注获得初始训练数据集,并采用初始训练数据集对标注模型进行训练,获得训练后的标注模型;
[0008]S200、将未进行人工标注的剩余数据采用训练后的标注模型进行标注,并输出识别结果和置信度;
[0009]S300、将识别结果按照置信度排序,按照置信度将剩余数据划分为低置信度数据集和其他数据集,并对低置信度数据集进行人工审查;
[0010]S400、判断人工审查结果是否满足预设条件;若人工审查结果不满足预设条件,则执行步骤S500;若人工审查结果满足预设条件,则执行步骤S600;
[0011]S500、对低置信度数据集中的数据进行人工重新标注,并采用人工标注后的数据对训练后的标注模型进行再次训练获得再次训练后的标注模型;
[0012]采用再次训练后的标注模型对其他数据集中的数据进行重新标注,并输出识别结果和置信度;
[0013]将识别结果按照置信度排序;按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,对进一步划分出的低置信度数据集进行人工审查,并按照人工审查结果再次执行步骤S400;
[0014]S600、则标注模型达标,获得达标标注模型。
[0015]进一步改进的方案:基于自学习标注的标注模型训练方法,还包括步骤:
[0016]S700、将检验数据集中的数据采用步骤S600获得的达标标注模型进行自动标注,并得到识别结果和置信度;
[0017]S800、按照置信度筛选出低置信度数据,判断采用人工审查低置信度数据的自动标注是否合格;
[0018]S801、若合格,则将达标标注模型作为最终标注模型;
[0019]S802、若不合格,则将检验数据集替换原始数据集,并采用步骤S100至S600对达标标注模型再次训练,直到获得最终标注模型。
[0020]基于上述方案,引入检验数据集,一方面达标标注模型进行自动标注,并得到识别结果和置信度,按照置信度筛选出低置信度数据,通过审核低置信度数据可以检验达标标注模型是否可以最终标注模型;另一方面,当达标标注模型不合格,则可以采用检验数据集进行自学习标注,提高标注模型的准确度,直到获得合格的最终标注模型。
[0021]进一步改进的方案:在步骤S800中,判断人工审查低置信度数据的自动标注是否合格判断依据是标注的准确率。
[0022]进一步改进的方案:其中,m1:m<10%。
[0023]基于上述方案,m1:m的值越小,人工标注的数据越少,越能节省人力成本。
[0024]进一步改进的方案:在步骤S300中,按照置信度将剩余数据划分为低置信度数据集和其他数据集时,采用设定比例划分或设定置信度阈值来划分;
[0025]在步骤S500中,按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,采用设定比例划分或设定置信度阈值来划分。
[0026]进一步改进的方案:在步骤S400中,判断人工审查结果是否满足预设条件为标注的成功率是否达到设定阈值。
[0027]第二方面,本专利技术提供了一种标注方法,采用上述任一方案所述的一种基于自学习标注的标注模型训练方法得到的达标标注模型对待标注数据进行标注。
[0028]本专利技术的有益效果为:
[0029]本专利技术先从原始数据集中抽取少量的数据进行人工标注获得初始的训练数据,并采用少量的人工标注数据对标注模型进行初步训练;将初步训练好的标注模型对原始数据集中未进行人工标注的数据进行自动标注,并抽取置信度较低的自动标注数据核验标注模型是否达标;若不达标,则对抽取的置信度较低的自动标注数据进行人工标注,再次对标注模型进行训练,并按照上述方法对训练好的标注模型再次核验是否达标;重复上述步骤,每次核验不通过后均抽取一部分置信度较低的自动标注数据进行人工标注,并对标注模型进行训练,直到获得达标的标注模型;本专利技术的标注模型训练方法,只需要人工标注少量的数据,便可以完成模型的训练,减少了劳动强度;此外,本专利技术采用了人工少量标注和标注模型自身自动标注相结合的方式,多次对标注模型自身进行验证,通过自学习的方式达到了模型的训练效果。
[0030]本专利技术利用置信度对标注模型自动标注的数据进行排序并获得低置信度数据集,一方面通过核验对低置信度的数据,对于标注模型的核验更加准确;另一方面,对筛选出的低置信度数据集重新进行人工标注,并用来训练标注模型,可以获得较好的训练效果。
[0031]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0032]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简要介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关附图。
[0033]图1是本专利技术中基于自学习标注的标注模型训练方法的流程示意图。
[0034]图2是本专利技术中基于自学习标注的标注模型训练方法的逻辑框图。
[0035]图3是本专利技术中采用检验数据集检验达标标注模型是否合格的流程示意图。
[0036]图4是本专利技术中包括有检验达标标注模型流程的标注模型训练方法的流程示意图。
具体实施方式
[0037]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚完整的描述。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自学习标注的标注模型训练方法,其特征在于,包括以下步骤:S100、从原始数据集中的m个数据中抽取m1个数据进行人工标注获得初始训练数据集,并采用初始训练数据集对标注模型进行训练,获得训练后的标注模型;S200、将未进行人工标注的剩余数据采用训练后的标注模型进行标注,并输出识别结果和置信度;S300、将识别结果按照置信度排序,按照置信度将剩余数据划分为低置信度数据集和其他数据集,并对低置信度数据集进行人工审查;S400、判断人工审查结果是否满足预设条件;若人工审查结果不满足预设条件,则执行步骤S500;若人工审查结果满足预设条件,则执行步骤S600;S500、对低置信度数据集中的数据进行人工重新标注,并采用人工标注后的数据对训练后的标注模型进行再次训练获得再次训练后的标注模型;采用再次训练后的标注模型对其他数据集中的数据进行重新标注,并输出识别结果和置信度;将识别结果按照置信度排序;按照置信度将其他数据集中的数据进一步划分为低置信度数据集和其他数据集,对进一步划分出的低置信度数据集进行人工审查,并按照人工审查结果再次执行步骤S400;S600、则标注模型达标,获得达标标注模型。2.根据权利要求1所述的一种基于自学习标注的标注模型训练方法,其特征在于:还包括步骤:S700、将检验数据集中的数据采用步骤S600获得的达标标注模型进行自动标...

【专利技术属性】
技术研发人员:俞开文
申请(专利权)人:杭州卓印智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1