异常样本筛选、清洗、训练方法、装置、设备和存储介质制造方法及图纸

技术编号:23213274 阅读:27 留言:0更新日期:2020-01-31 22:02
本申请涉及一种样本清洗方法、装置、计算机设备和存储介质。所述方法包括:从样本集中获取样本图像;将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;对所述遗忘次数大于所述预设阈值的样本图像进行二次学习训练,得到第二训练文本,并根据所述第二训练文本确定所述样本图像的审核结果;根据审核结果对所述样本集的所述样本图像进行清洗,得到清洗后的所述样本集。采用本方法能够快速对样本图片进行筛选清洗。

Abnormal sample screening, cleaning, training methods, devices, equipment and storage media

【技术实现步骤摘要】
异常样本筛选、清洗、训练方法、装置、设备和存储介质
本申请涉及数据挖掘
,特别是涉及一种异常样本筛选方法、样本集清洗方法、模型训练方法、异常样本筛选装置、计算机设备和存储介质。
技术介绍
目前,在文本识别训练中,为了提高模型的准确率,最常用的方法是增加训练集中样本图片的数量,通过对大量的样本图片进行分析,提高模型的准确性。可是训练集数据量过大会使得模型训练速度变慢,也容易存在样本出错的情况,反而降低了模型的准确率;另外一方面,如果随机从训练集中筛选部分样本图片,则由于无法保证被筛选图片具有代表性,同样也降低模型的识别效果。因而,现在缺少一种可以快速对样本图片进行筛选清洗的方法。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够快速对样本图片进行筛选清洗的异常样本筛选方法、样本集清洗方法、模型训练方法、异常样本筛选装置、计算机设备和存储介质。一种异常样本筛选方法,所述方法包括:从样本集中获取样本图像;将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定本文档来自技高网...

【技术保护点】
1.一种异常样本筛选方法,所述方法包括:/n从样本集中获取样本图像;/n将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;/n将所述遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;/n根据审核结果对所述样本图像进行筛选,得到异常样本。/n

【技术特征摘要】
1.一种异常样本筛选方法,所述方法包括:
从样本集中获取样本图像;
将所述样本图像输入第一训练模型,得到与所述样本图像对应的预测文本,并根据所述预测文本确定所述样本图像的遗忘次数;
将所述遗忘次数大于预设阈值的样本图像发送给审核终端,并接收所述审核终端反馈的所述样本图像的审核结果;
根据审核结果对所述样本图像进行筛选,得到异常样本。


2.根据权利要求1所述的方法,其特征在于,所述将所述样本图像输入第一训练模型,得到与所述第一样本图像对应的预测文本,包括:
采用残差网络识别对所述样本图像进行特征提取,得到特征图;
通过长短期记忆网络对所述特征图进行特征分析,输出预测文本。


3.根据权利要求2所述的方法,其特征在于,所述通过长短期记忆网络对所述特征图进行特征分析,输出预测文本,包括:
提取所述特征图的图像像素特征、图像时序特征和字符连接特征;
将所述图像像素特征、所述图像时序特征和所述字符连接特征输入长短期记忆网络,得到与所述特征图对应的预测文本。


4.根据权利要求1所述的方法,其特征在于,所述根据所述预测文本确定所述样本图像的遗忘次数,包括:
获取所述样本图像的图片标识和图片标签;
通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数。


5.根据权利要求4所述的方法,其特征在于,所述通过所述预测文本和所述图片标签比对,确定所述样本图像的遗忘次数,包括:
将所述预测文本和所述图片标签进行比对,确定准确率,将图片标识和所述准确率进行对应存储;
计算所述准确率的变化差值;
统计变化差值,得到所述样本图像的遗忘次数。<...

【专利技术属性】
技术研发人员:周康明冯晓锐
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1