样本扩充方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:37083640 阅读:28 留言:0更新日期:2023-03-29 19:59
本申请实施例公开了一种样本扩充方法、装置、设备、存储介质及产品。通过获取原始样本集,并基于原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;将原始样本集中的测试正样本子集输入至图像分类模型,确定中间结果集;根据中间结果集和测试正样本子集确定待扩充样本;根据待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将扩充样本加入原始样本集,以得到扩充样本集;其中,扩充样本与待扩充样本的标签相同。本申请实施例的技术方案,无需在图像分类模型训练初始为其提供大量成熟数据,而是在训练过程中实现了待扩充样本的自适应确定,及样本的针对性扩充,减少了所需的原始样本数据量,降低了人工收集数据成本。工收集数据成本。工收集数据成本。

【技术实现步骤摘要】
样本扩充方法、装置、设备、存储介质及产品


[0001]本申请实施例涉及机器学习
,尤其涉及一种样本扩充方法、装置、设备、存储介质及产品。

技术介绍

[0002]随着科学技术的发展与进步,内容安全已逐渐成为互联网生态治理的主要内容,庞大的互联网图像数据若仅依靠人工审核不仅识别效率较低,还会极大地耗费人力资源,因此在图像内容审核等风控工作中,主流的审核算法已逐渐转变为依据计算机视觉的人工智能审核。但该方法往往需要积累较大的数据量,才会保证训练得到的模型由较好的泛化能力和实际应用价值,而针对模型进行初始训练时,由于数据积累量不足,难以提供足量的训练样本。
[0003]目前,针对模型训练前期样本量不足的问题,常采用以下两种方式解决:一是通过人工收集更多数据以缓解数据不足的问题;二是通过使用基于视觉系统的生成技术,以得到更多与训练需求相关的,语义相近的样本。
[0004]然而,由于进行模型训练所需正样本在全部数据中占比极小,人工收集数据将投入极大的研发周期和时间成本,且人工标注本身存在一定的主观性,难以完全适配训练需求;而采用视觉系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本扩充方法,其特征在于,包括:获取原始样本集,并基于所述原始样本集中的训练正样本子集和训练负样本子集训练得到图像分类模型;将所述原始样本集中的测试正样本子集输入至所述图像分类模型,确定中间结果集;根据所述中间结果集和所述测试正样本子集确定待扩充样本;根据所述待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,将所述扩充样本加入所述原始样本集,以得到扩充样本集;其中,所述扩充样本与所述待扩充样本的标签相同。2.根据权利要求1所述的方法,其特征在于,所述将所述原始样本集中的测试正样本子集输入至所述图像分类模型,确定中间结果集,包括:将所述原始样本集的测试正样本子集中,各测试正样本中的图像分别输入至所述图像分类模型中,确定各所述图像对应的预测结果向量;将各所述预测结果向量的集合确定为中间结果集。3.根据权利要求2所述的方法,其特征在于,所述根据所述中间结果集和所述测试正样本子集确定待扩充样本,包括:将所述中间结果集中各预测结果向量,与各所述图像对应的标签进行比对,确定各所述预测结果向量对应的不确定度集合;根据各所述不确定度集合确定待扩充样本。4.根据权利要求3所述的方法,其特征在于,所述将所述中间结果集中各预测结果向量,与各所述图像对应的标签进行比对,确定各所述预测结果向量对应的不确定度集合,包括:针对每个预测结果向量,确定与各所述标签对应的预测结果概率和标定概率;根据各所述预测结果概率与各所述标定概率,确定各所述标签对应的不确定度;将各所述不确定度的集合确定为所述预测结果向量对应的不确定度集合。5.根据权利要求3所述的方法,其特征在于,所述根据各所述不确定度集合确定待扩充样本,包括:将各所述不确定度集合中大于预设不确定度阈值的不确定度,确定为目标不确定度;确定与所述目标不确定度对应的目标标签,以及与所述目标不确定度对应的目标图像;将所述目标标签与所述目标图像的结合确定为待扩充样本。6.根据权利要求1所述的方法,其特征在于,所述根据所述待扩充样本与预设数据库中备选图像的比对结果确定扩充样本,包括:将所述待扩充样本中图像与预设数据库中各备选图像进行比对,并将相似度超过预设相似度阈值的备选图像确定为扩充样本中的图像;将所述待扩充样本中的标签确定为所述扩充...

【专利技术属性】
技术研发人员:陈祥李斌泉
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1