【技术实现步骤摘要】
预标注模型的构建方法、预标注方法及装置、电子设备
[0001]本申请涉及数据标注领域,特别涉及一种预标注模型的构建方法、预标注方法及装置、电子设备。
技术介绍
[0002]机器学习依赖大量的已标注数据,数据标注让机器理解并认识世界,这是人工智能发展过程中不可缺的一环。随着人工智能行业的发展,行业内对数据的质量和数量提出了更高的要求,增加了人工智能算法开发的成本。
[0003]目前,为了降低数据标注的成本,一般会选择使用数据预标注模型对数据进行预标注,例如使用目标检测算法初步识别图像的目标类别,使用语义分割算法初步分割出图像的语义信息,然后人工手动调整数据的标签,获得准确的数据标签信息。
[0004]但是,由于数据预标注模型的训练也需要大量的数据才能得到较好的算法模型,往往在这一步就需要投入大量的人力来标注数据的标签用于训练数据预标注模型,如果预标注模型算法训练的效果不好,最终使用模型时得到的预标注结果也必定不好,有时反而会增加人工调整数据标签的工作量。
技术实现思路
[0005]有鉴于此,本申 ...
【技术保护点】
【技术特征摘要】
1.一种预标注模型的构建方法,其特征在于,所述方法包括:通过深度学习算法构建预标注初始模型;将未标注的数据集输入所述预标注初始模型中,得到标注数据集;从所述标注数据集筛选出标注不准确的数据;对所述标注不准确的数据进行人工标注;将人工标注后的数据加入到已标注的数据集中,构成新的训练集;使用新的训练集对所述预标注初始模型重新进行训练,得到预标注模型。2.根据权利要求1所述的方法,其特征在于,通过深度学习算法构建预标注初始模型,包括:构建由多层神经网络组成的主干网络,用于对训练数据集中的数据进行提取特征;针对不同的标注任务构建不同的特征处理算法;将构建的主干网络提取的特征传入构建的特征处理算法中进行处理,得到对应的数据预测值;在第一轮训练中主干网络得到权重参数;使用训练数据集中的数据预测值和训练数据集中的数据真实值计算出损失;根据计算出的损失在第二轮训练中调整主干网络的权重参数;经过多轮训练,当损失值小于预定值时停止训练,得到满足要求的预标注初始模型。3.根据权利要求1所述的方法,其特征在于,从所述标注数据集筛选出标注不准确的数据,包括:通过不确定性度量策略衡量标注数据集中的数据的标注价值;筛选标注价值大于预定值的数据记为不准确数据。4.根据权利要求3所述从标注数据集筛选出标注不准确的数据,其特征在于,所述不确定性度量策略,包括:计算标注数据集中的数据的最小置信度;通过最小置信度计算标注数据集中的数据的标注价值。5.根据权利要求1所述的方法,其特征在于,对所述标注不准确的数据进行人工标注,包括:将所述标注不准确的数据分发给数据标注员,以使得数据标注员针对不同的标注任务使用对应的数据标注工具标注数据。6.根据权利要求2所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:林群书,卜佳俊,吴欣骏,刘明皓,祁士刚,杨易,张超,赵子健,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。