【技术实现步骤摘要】
样本数据标注方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及样本数据标注方法、装置、计算机设备及存储介质。
技术介绍
随着人工智能(AI,ArtificialIntelligence)技术的发展,以及其在越来越多的业务场景下的应用,经常会需要训练特定场景下的模型,相应地,则需要标注大量该场景下的样本数据,以便训练得到精度高且泛化能力强的模型。目前,主要采用人工标注方式,这种方式不但需要投入大量的人力成本,而且效率低下,且容易出现错误,准确性较差。
技术实现思路
有鉴于此,本专利技术提供了样本数据标注方法、装置、计算机设备及存储介质。具体技术方案如下:一种样本数据标注方法,包括:获取初始的标注模型;利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最 ...
【技术保护点】
1.一种样本数据标注方法,其特征在于,包括:获取初始的标注模型;利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。
【技术特征摘要】
1.一种样本数据标注方法,其特征在于,包括:获取初始的标注模型;利用用户从上传的样本数据中选出并进行标注的M个样本数据组成训练数据集,M为大于一的正整数;进行模型优化处理,包括:利用所述训练数据集对所述标注模型进行微调finetuning,得到优化后的标注模型;若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中,并重复所述模型优化处理,否则,利用最新得到的标注模型对未标注的样本数据进行标注。2.根据权利要求1所述的方法,其特征在于,所述获取初始的标注模型包括:利用从权威的通用训练数据集中选出的N个样本数据训练得到所述初始的标注模型,N为大于一的正整数。3.根据权利要求2所述的方法,其特征在于,所述训练得到所述初始的标注模型之前,进一步包括:根据使用需求,确定出所采用的标注模型。4.根据权利要求1所述的方法,其特征在于,所述若能够从未标注的样本数据中选出符合预定要求的样本数据,则将选出的样本数据经用户标注后合并到所述训练数据集中包括:利用最新得到的标注模型分别对各未标注的样本数据进行评估,得到各未标注的样本数据的评估结果;若存在评估结果符合预定要求的未标注的样本数据,则从中选出至少一个未标注的样本数据,将选出的未标注的样本数据展示给用户进行标注;将用户标注后的样本数据合并到所述训练数据集中。5.根据权利要求4所述的方法,其特征在于,所述评估结果符合预定要求包括:所述评估结果小于预定阈值;所述从中选出至少一个未标注的样本数据包括:从评估结果符合预定要求的未标注的样本数据中选出至少一个未标注的样本数据,其中,选出的未标注的样本数据的评估结果小于未选出的未标注的样本数据的评估结果,评估结果越小,说明其对应的未标注的样本数据的标注价值越大。6.根据权利要求1所述的方法,其特征在于,所述利用最新得到的标注模型对未标注的样本数据进行标注之后,进一步包括:将进行标注后的样本数据展示给用户进行修正或确认。7.一种样本数据标注装置,其特征在于,包括:预处理单元以及标注单元;所述预处理单元,用于获取初始的标注模型;所述标注单元,...
【专利技术属性】
技术研发人员:尤晓赫,徐彬彬,李曙鹏,华蔚颖,施恩,谢永康,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。