本发明专利技术公开了一种预标注模型的构建方法、预标注方法及装置、电子设备,所述预标注模型的构建方法包括:构建预标注初始模型;将未标注的数据集输入所述预标注初始模型中,得到标注数据集;从所述标注数据集筛选出标注不准确的数据;对所述标注不准确的数据进行人工标注;将人工标注后的数据加入到已标注的数据集中,构成新的训练集;使用新的训练集对所述预标注初始模型重新进行训练,得到预标注模型。所述预标注方法包括:获取待标注的数据;将所述待标注的数据输入到上述方法构建的预标注模型中进行预标注。解决了现有技术中存在的算法对数据需求量大,数据质量和数量要求高导致的人工标注成本上升和数据预标注模型效果不佳的问题。佳的问题。佳的问题。
【技术实现步骤摘要】
预标注模型的构建方法、预标注方法及装置、电子设备
[0001]本申请涉及数据标注领域,特别涉及一种预标注模型的构建方法、预标注方法及装置、电子设备。
技术介绍
[0002]机器学习依赖大量的已标注数据,数据标注让机器理解并认识世界,这是人工智能发展过程中不可缺的一环。随着人工智能行业的发展,行业内对数据的质量和数量提出了更高的要求,增加了人工智能算法开发的成本。
[0003]目前,为了降低数据标注的成本,一般会选择使用数据预标注模型对数据进行预标注,例如使用目标检测算法初步识别图像的目标类别,使用语义分割算法初步分割出图像的语义信息,然后人工手动调整数据的标签,获得准确的数据标签信息。
[0004]但是,由于数据预标注模型的训练也需要大量的数据才能得到较好的算法模型,往往在这一步就需要投入大量的人力来标注数据的标签用于训练数据预标注模型,如果预标注模型算法训练的效果不好,最终使用模型时得到的预标注结果也必定不好,有时反而会增加人工调整数据标签的工作量。
技术实现思路
[0005]有鉴于此,本申请实施例提供了一种预标注模型的构建方法、预标注方法及装置、电子设备,以解决现有技术中存在的算法对数据需求量大,数据质量和数量要求高导致的人工标注成本上升和数据预标注模型效果不佳的问题。
[0006]根据本申请实施例的第一方面,提供一种预标注模型的构建方法,所述方法包括:
[0007]通过深度学习算法构建预标注初始模型;
[0008]将未标注的数据集输入所述预标注初始模型中,得到标注数据集;
[0009]从所述标注数据集筛选出标注不准确的数据;
[0010]对所述标注不准确的数据进行人工标注;
[0011]将人工标注后的数据加入到已标注的数据集中,构成新的训练集;
[0012]使用新的训练集对所述预标注初始模型重新进行训练,得到预标注模型。
[0013]可选的,通过深度学习算法构建预标注初始模型,包括:
[0014]构建由多层神经网络组成的主干网络,用于对训练数据集中的数据进行提取特征;
[0015]针对不同的标注任务构建不同的特征处理算法;
[0016]将构建的主干网络提取的特征传入构建的特征处理算法中进行处理,得到对应的数据预测值;
[0017]在第一轮训练中主干网络得到权重参数;
[0018]使用训练数据集中的数据预测值和训练数据集中的数据真实值计算出损失;
[0019]根据计算出的损失在第二轮训练中调整主干网络的权重参数;
[0020]经过多轮训练,当损失值小于预定值时停止训练,得到满足要求的预标注初始模型。
[0021]可选的,从所述标注数据集筛选出标注不准确的数据,包括:
[0022]通过不确定性度量策略衡量标注数据集中的数据的标注价值;
[0023]筛选标注价值大于预定值的数据记为不准确数据。
[0024]可选的,所述不确定性度量策略,包括:
[0025]计算标注数据集中的数据的最小置信度;
[0026]通过最小置信度计算标注数据集中的数据的标注价值;
[0027]可选的,对所述标注不准确的数据进行人工标注,包括:
[0028]将所述标注不准确的数据分发给数据标注员,以使得数据标注员针对不同的标注任务使用对应的数据标注工具标注数据。
[0029]可选的,使用新的训练集对所述预标注初始模型重新进行训练,得到新的预标注模型,包括:
[0030]使用新的训练集在和构建预标注初始模型相同的深度学习算法中进行训练;
[0031]使用预标注初始模型的权重参数作为再次训练的初始参数;
[0032]冻结主干网络中部分神经网络层;
[0033]在每一轮训练中更新主干网络中未冻结层的参数;
[0034]当损失值小于预定值时停止训练,得到满足要求的预标注模型。
[0035]根据本申请实施例的第二方面,提供一种预标注方法,包括:
[0036]获取待标注的数据;
[0037]将所述待标注的数据输入到第一方面所述方法构建的预标注模型中进行预标注。
[0038]根据本申请实施例的第三方面,提供一种预标注模型的构建装置,包括:
[0039]构建模块,用于通过深度学习算法构建预标注初始模型;
[0040]第一预标注模块,用于将未标注的数据集输入所述预标注初始模型中,得到标注数据集;
[0041]筛选模块,用于从所述标注数据集筛选出标注不准确的数据;
[0042]人工标注模块,用于对所述标注不准确的数据进行人工标注;
[0043]训练集构建模块,用于将人工标注后的数据加入到已标注的数据集中,构成新的训练集;
[0044]训练模块,用于使用新的训练集对所述预标注初始化模型进行训练,得到预标注模型。
[0045]根据本申请实施例的第四方面,提供一种预标注装置,包括:
[0046]获取模块,用于获取待标注的数据;
[0047]第二预标注模块,用于将所述待标注的数据输入到第一方面所述方法构建的预标注模型中进行预标注。
[0048]根据本申请实施例的第五方面,提供一种电子设备,包括:
[0049]一个或多个处理器;
[0050]存储器,用于存储一个或多个程序;
[0051]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理
器实现如第一方面、第二方面所述的方法。
[0052]根据本申请实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面、第二方面所述方法的步骤。
[0053]本申请的实施例提供的技术方案可以包括以下有益效果:
[0054]由上述实施例可知,本申请通过深度学习算法构建预标注初始模型,将未标注的数据集输入所述预标注初始模型中,得到标注数据集,再从所述标注数据集筛选出标注不准确的数据,这些标注不准确的数据经过数据专家(也就是人工标注)进行手动精确的标注后加入到训练数据集,通过训练数据集训练之后得到新的更准确的预标注模型,在下一批待标注数据导入时,就能够使用更准确的预标注模型获得更准确的预标注结果。还可经过不断地训练更新之后,预标注结果将越来越准确,人力的需求将越来越低,从而逐步降低数据标注的成本。
[0055]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0056]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0057]图1是本申请实施例提供的一种预标注模型的构建方法的流程图。
[0058]图2是本申请实施例提供的一种最小置信度分数计算示意图
[0059]图3是本申请实施例提供的图像目标检测数据为例的流程图
[0060本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种预标注模型的构建方法,其特征在于,所述方法包括:通过深度学习算法构建预标注初始模型;将未标注的数据集输入所述预标注初始模型中,得到标注数据集;从所述标注数据集筛选出标注不准确的数据;对所述标注不准确的数据进行人工标注;将人工标注后的数据加入到已标注的数据集中,构成新的训练集;使用新的训练集对所述预标注初始模型重新进行训练,得到预标注模型。2.根据权利要求1所述的方法,其特征在于,通过深度学习算法构建预标注初始模型,包括:构建由多层神经网络组成的主干网络,用于对训练数据集中的数据进行提取特征;针对不同的标注任务构建不同的特征处理算法;将构建的主干网络提取的特征传入构建的特征处理算法中进行处理,得到对应的数据预测值;在第一轮训练中主干网络得到权重参数;使用训练数据集中的数据预测值和训练数据集中的数据真实值计算出损失;根据计算出的损失在第二轮训练中调整主干网络的权重参数;经过多轮训练,当损失值小于预定值时停止训练,得到满足要求的预标注初始模型。3.根据权利要求1所述的方法,其特征在于,从所述标注数据集筛选出标注不准确的数据,包括:通过不确定性度量策略衡量标注数据集中的数据的标注价值;筛选标注价值大于预定值的数据记为不准确数据。4.根据权利要求3所述从标注数据集筛选出标注不准确的数据,其特征在于,所述不确定性度量策略,包括:计算标注数据集中的数据的最小置信度;通过最小置信度计算标注数据集中的数据的标注价值。5.根据权利要求1所述的方法,其特征在于,对所述标注不准确的数据进行人工标注,包括:将所述标注不准确的数据分发给数据标注员,以使得数据标注员针对不同的标注任务使用对应的数据标注工具标注数据。6.根据权利要求2所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:林群书,卜佳俊,吴欣骏,刘明皓,祁士刚,杨易,张超,赵子健,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。