一种数据处理方法、装置、计算机设备以及可读存储介质制造方法及图纸

技术编号:36581328 阅读:28 留言:0更新日期:2023-02-04 17:41
本申请实施例公开了一种数据处理方法、装置、计算机设备以及可读存储介质,该方法包括:将获取到的待处理数据对象输入数据处理模型进行处理,得到目标处理结果;该数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据不确定性估计模型测试样本处理得到的不确定性目标值和标签预测模型对测试样本处理得到的伪标签,从测试样本集中确定目标测试样本,根据各个目标测试样本以及对应的伪标签对训练样本集进行更新,利用更新后的训练样本集对标签预测模型进行训练,根据训练后的标签预测模型确定数据处理模型。采用本方案,可以在模型训练过程中自动标注测试样本,标注的效率高,有利于提高模型的训练效率。型的训练效率。型的训练效率。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备以及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。

技术介绍

[0002]近年来,随着机器学习技术的逐步发展,涌现了各式各样的机器学习算法,根据不同的学习方式可以划分为有监督学习、无监督学习、半监督学习、强化学习等等,得益于数据、算法、算力的发展,大规模训练数据的深度学习技术取得了突破性地进展。
[0003]通常,利用全量有标签训练数据训练网络,能够将训练好的网络应用到相应场景的数据处理中,但是全量的标注数据也意味着更高的标注成本,尤其是专业知识领域,当数据量大时标注以及全量训练也具备一定难度。主动学习以尽可能少的人工标注样本训练模型,并从高不确定样本中快速学习到有用信息,极大地缓解了上述问题,但其通常基于某种查询策略,从没有标注的样本中筛选有价值的样本数据交由人工标注,然后再将这些样本增加到模型的训练中迭代模型,这种训练方式仍旧依赖于人工专家标注,但人工标注的效率低,会影响模型的训练效率。

技术实现思路
/>[0004]本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理数据对象;将所述待处理数据对象输入数据处理模型进行处理,得到目标处理结果;其中,所述数据处理模型是结合不确定性估计模型对标签预测模型进行训练得到的;在训练过程中,根据所述不确定性估计模型对测试样本集包括的测试样本处理得到的不确定性目标值,以及所述标签预测模型对所述测试样本处理得到的伪标签,从所述测试样本集中确定目标测试样本,根据各个所述目标测试样本以及各个所述目标测试样本的伪标签对训练样本集进行更新,利用更新后的训练样本集对所述标签预测模型进行训练,根据训练后的标签预测模型确定所述数据处理模型。2.如权利要求1所述的方法,其特征在于,所述方法还包括:获取所述训练样本集和所述测试样本集,所述训练样本集包括多个训练样本以及各个训练样本的参考标签,所述测试样本集包括多个测试样本;利用所述训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,以及利用所述训练样本集对不确定性估计模型进行训练,得到训练后的不确定性估计模型;将所述测试样本集包括的测试样本输入所述第一标签预测模型中进行标签预测处理,得到各个测试样本的伪标签,以及将所述测试样本输入所述训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值;根据所述各个测试样本的不确定性目标值和伪标签从所述测试样本集中确定目标测试样本,并利用各个目标测试样本以及所述各个目标测试样本的伪标签对所述训练样本集进行更新,利用更新后的训练样本集对所述第一标签预测模型进行再次训练,根据再次训练得到的第二标签预测模型确定所述数据处理模型。3.如权利要求2所述的方法,其特征在于,所述初始标签预测模型包括特征提取模块,所述利用所述训练样本集对初始标签预测模型进行训练,得到初始训练后的第一标签预测模型,包括:将所述训练样本集包括的训练样本输入初始标签预测模型,利用所述初始标签预测模型包括的特征提取模块对所述训练样本进行特征提取,得到各个训练样本的特征数据;在利用所述各个训练样本的特征数据对所述初始标签预测模型进行训练的过程中,利用所述初始标签预测模型对所述各个训练样本的特征数据进行标签预测处理,得到各个训练样本的预测标签;根据所述各个训练样本的预测标签和参考标签确定损失信息,并根据所述损失信息对所述初始标签预测模型的模型参数进行调整,根据模型参数调整后的初始标签预测模型确定初始训练后的第一标签预测模型。4.如权利要求2所述的方法,其特征在于,所述将所述测试样本输入所述训练后的不确定性估计模型进行不确定性分析处理,得到各个测试样本的不确定性目标值,包括:利用所述训练后的不确定性估计模型对所述测试样本进行不确定性分析处理,得到所述测试样本对应的数据不确定性预测值以及模型不确定性预测值;根据所述数据不确定性预测值以及所述模型不确定性预测值确定所述测试样本的不确定性目标值。
5.如权利要求2

4中任一项所述的...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1