基于AIGC的训练数据集确定方法及装置、存储介质、终端制造方法及图纸

技术编号:39436701 阅读:21 留言:0更新日期:2023-11-19 16:20
一种基于AIGC的训练数据集确定方法及装置、存储介质、终端,方法包括:将第一训练数据集输入初始模型进行初步迭代训练得到预训练模型;将第二训练数据集输入预训练模型进行再次迭代训练得到再训练模型,所述第二训练数据集是基于AIGC技术对所述第一训练数据集进行扩充得到的;将多张待标注图像输入再训练模型进行产品缺陷预测,并采用产品缺陷预测结果对待标注图像进行标注,得到第三训练数据集;其中,第二训练数据集与第一训练数据集的图像数量的比值大于等于10,初步迭代训练采用的第一损失函数与再次迭代训练采用的第二损失函数的收敛阈值的比值大于等于2。上述方案可以快速获得大量标注有准确的产品缺陷标签的训练数据集。数据集。数据集。

【技术实现步骤摘要】
基于AIGC的训练数据集确定方法及装置、存储介质、终端


[0001]本专利技术涉及数据处理
,尤其涉及一种基于AIGC的训练数据集确定方法及装置、存储介质、终端。

技术介绍

[0002]在工业连铸
,通常需要对连铸产品(包括钢坯、铜棒等)的缺陷进行检测,比如检测铜棒是否存在开裂、波纹以及夹杂等情况。现有的产品缺陷检测方法通常是对实际生产环节对应的产品进行图像采集,然后采用人工分析或检测模型自动检测的方法获知相应产品的具体缺陷情况。
[0003]人工分析的成本高且效率低下,实际应用中较少采用。而采用检测模型自动检测的方法,其检测结果的准确度则依赖于检测模型本身的检测精度,这就需要获取大量带有产品缺陷标签的产品样本图像对相关检测模型进行训练,以提高模型性能。
[0004]然而,实际应用中,带产品缺陷标签的训练数据集往往难以快速获得,需要较高的人工标注成本,或者,对训练数据集标注的产品缺陷标签准确度不足,进而影响后续模型训练的效果。

技术实现思路

[0005]本专利技术实施例解决的技术问题是如何快速获得大量本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于AIGC的训练数据集确定方法,其特征在于,包括:采用第一损失函数,将第一训练数据集输入初始模型进行初步迭代训练,直至所述第一损失函数的函数值达到第一阈值时停止迭代训练,得到预训练模型,其中,所述第一训练数据集包含第一数量的产品样本图像;采用第二损失函数,将第二训练数据集输入所述预训练模型进行再次迭代训练,直至所述第二损失函数的函数值达到第二阈值时停止迭代训练,得到再训练模型,其中,所述第二训练数据集是基于AIGC技术对所述第一训练数据集进行扩充得到的,所述第二训练数据集包含第二数量的产品样本图像,所述第一训练数据集和第二训练数据集均标注有产品缺陷标签;将多张待标注图像输入所述再训练模型进行产品缺陷预测,并采用所述再训练模型输出的产品缺陷预测结果,对所述待标注图像进行标注,以得到第三训练数据集;其中,所述第二数量与所述第一数量的比值大于等于10,所述第一阈值与所述第二阈值的比值大于等于2。2.根据权利要求1所述的方法,其特征在于,在将第二训练数据集输入所述预训练模型进行再次迭代训练之前,所述方法还包括:基于AIGC技术,对所述第一训练数据集进行数据扩充,得到扩充产品缺陷图像集;将所述扩充产品缺陷图像集以及所述第一训练数据集的集合,作为所述第二训练数据集。3.根据权利要求2所述的方法,其特征在于,基于AIGC技术,对所述第一训练数据集进行数据扩充,得到扩充产品缺陷图像集,包括:对所述第一训练数据集中的产品样本图像进行特征提取,以得到每张产品样本图像的特征向量;根据每两张产品样本图像的特征向量之间的相似度,对所述产品样本图像进行聚类,以得到一个或多个产品样本图像子集;对每个产品样本图像子集,基于其中的产品样本图像的特征向量进行特征融合,以得到该产品样本图像子集对应的多个融合特征向量;基于所得到的各个融合特征向量,生成所述扩充产品缺陷图像集。4.根据权利要求3所述的方法,其特征在于,对每个产品样本图像子集,基于其中的产品样本图像的特征向量进行特征融合,以得到该产品样本图像子集对应的多个融合特征向量,包括:对每个产品样本图像子集中的产品样本图像,以每n张产品样本图像为一组,得到多个产品样本图像组;对于每个产品样本图像组,对该产品样本图像组的n张产品样本图像的特征向量进行向量拼接,得到该产品样本图像组对应的融合特征向量,从而获得所述产品样本图像子集对应的多个融合特征向量;其中,2≤n≤N,N为所述产品样本图像子集中的产品样本图像的总张数,n与N均为正整数。5.根据权利要求2或3所述的方法,其特征在于,所述扩充产品缺陷图像集的产品缺陷标签,是采用所述预训练模型进行产品缺陷预测得到的。6.根据权利要求3所述的方法,其特征在于,在对所述第一训练数据集中的产品样本图
像进行特征提取之前,所述方法还包括:对所述第一训练数据集中的产品样本图像进行二值化处理。7.根据权利要求1所述的方法,其特征在于,所述第一训练数据集的每张产品样本图像是对单张产品样本子图进行一次或多次正反倒转拼接得到的;其中,所述产品样本图像包含的每张产品样本子图均具有各自的产品...

【专利技术属性】
技术研发人员:余炯王予津
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1