一种基于图文融合对比学习预测方法技术

技术编号：40521424 阅读：10 留言：0更新日期：2024-03-01 13:39

本发明专利技术涉及图像处理技术领域，公开了一种基于图文融合对比学习预测方法，包括以下步骤：为工业零件图像数据配对相关类别标签的文本嵌入，并进行预处理；构建图文融合对比学习模型，并通过引入基于图像实例的属性权重机制来区分缺陷种类，采用按通道条件提示模块进行特征拆分和信息提取，同时利用训练集对模型进行训练；调整模型参数进行多次训练，并进行测试及性能评估；利用图文融合对比学习模型进行预测得到工业零件的缺陷信息。本发明专利技术具有较好的预测性能，能够以较小的误差来预测出工业零件是否有缺陷，能够生成更加解释性强的注意力图，可以更准确地对零件进行分类和缺陷预测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体来说，涉及一种基于图文融合对比学习预测方法。

技术介绍

1、目标预测是图像处理中极为重要的组成部分，特别是在工业零件预测中。在制造业中，人工预测被视为生产和质量控制的标准方法，专家通过高分辨率的图像手动预测零件的缺陷和瑕疵。然而，工业零件的人工预测是一项费时、易出错且劳力密集的工作。它的准确性高度依赖于预测者的专业知识和经验，这可能导致预测的不一致性和错误。基于这些挑战，开发一个能够自动预测工业零件缺陷的网络框架显得至关重要。这样的框架应能够以工业可以接受的精度进行自动预测，并为专家提供参考意见，从而在更短的时间内更准确地确定缺陷和瑕疵。这种自动化方法不仅可以提高生产效率，还可以确保产品的质量和一致性。

2、目前研究者提出的几种针对工业零件的预测方法可以分为传统图像处理技术方法和智能预测。传统图像处理技术包括边缘预测、形态学操作等，这些算法的预测技术依赖于手动设计的特征好坏，因此深度学习和计算机视觉技术，特别是卷积神经网络已成为主流，目前已经提出了许多方法，例如li等人通过引入使用2d和3d dense-unet混合特征融合层来探索图像内和图像间特征。silva等人提出使用粒子群优化来优化cnn网络超参数，以便更好地将提案分类，并提高假阳性还原步骤的灵敏度。liu等使用基于多面体的采样模式和多尺度的方式捕获结节及其周围环境，并提出了基于高频内容的视图排序方法，输出更多的信息以准确识别类型。jia等提出了一种改进的unet对图像进行分割，然后对目标进行灰度、形状、内部形态、外部形态、纹理、空

3、针对相关技术中的问题，目前尚未提出有效的解决方案。

技术实现思路

1、针对相关技术中的问题，本专利技术提出一种基于图文融合对比学习预测方法，以克服现有相关技术所存在的上述技术问题。

2、为此，本专利技术采用的具体技术方案如下：

3、一种基于图文融合对比学习预测方法，该基于图文融合对比学习预测方法包括以下步骤：

4、s1、获取工业零件图像数据，并为工业零件图像数据配对相关类别标签的文本嵌入，同时对工业零件图像数据和文本嵌入数据进行预处理；

5、s2、构建图文融合对比学习模型，并通过引入基于图像实例的属性权重机制来区分缺陷种类，采用按通道条件提示模块进行特征拆分和信息提取，同时利用训练集对图文融合对比学习模型进行训练；

6、s3、调整图文融合对比学习模型的参数并进行多次训练，利用测试集对训练好的图文融合对比学习模型进行测试，并进行性能评估；

7、s4、利用性能评估达标后的图文融合对比学习模型对工业零件图像数据进行预测，得到工业零件的缺陷信息。

8、进一步的，所述获取工业零件图像数据，并为工业零件图像数据配对相关类别标签的文本嵌入，同时对工业零件图像数据和文本嵌入数据进行预处理包括以下步骤：

9、s11、获取工业零件图像数据，并对所有的工业零件图像进行中心处注释，同时以双倍等效直径将工业零件图像裁剪成正方形，并调整至预设体积；

10、s12、利用相同的预设属性对工业零件图像数据集中所有的工业零件进行属性标注，并对属性与零件的对应关系进行定义；

11、s13、根据给定的工业零件图像数据集及定义的对应关系创建三个子数据集，并嵌入生成的相关类别标签的文本。

12、进一步的，所述预设属性包括形状、大小、表面粗糙度、纹理变化、颜色差异性、边缘清晰度、反光性及对称度；

13、所述预设属性的标准范围为1-5，属性与零件的对应关系为：属性标注在2.5-3.5之间的工业零件定义为不确定零件，属性标注低于2.5的工业零件定义为正常零件，属性标注高于3.5的工业零件定义为缺陷零件。

14、进一步的，所述三个子数据集包括子数据集parts-a、子数据集parts-b及子数据集parts-c；

15、其中，子数据集parts-a的训练集和测试集中都包含正常零件、缺陷零件和不确定零件的三类零件；

16、子数据集parts-b的训练集中包含正常零件、缺陷零件和不确定零件的三类零件，测试集仅包含正常和缺陷零件；

17、子数据集parts-c的训练集和测试集中同时包含正常和缺陷零件。

18、进一步的，所述构建图文融合对比学习模型，并通过引入基于图像实例的属性权重机制来区分缺陷种类，采用按通道条件提示模块进行特征拆分和信息提取，同时利用训练集对图文融合对比学习模型进行训练包括以下步骤：

19、s21、利用图像编码器提取工业零件图像的特征，并使用预训练的文本编码器提取工业零件相关的类别标签的文本嵌入和属性嵌入集合；

20、s22、利用基于图像实例的属性权重机制对属性词嵌入元素进行处理，得到对应的特征辨识信息；

21、s23、通过通道条件提示模块对获取的特征辨识信息进行处理，得到用于对比学习的特征；

22、s24、将工业零件分类数据集排列为{ι,y,c,a}，其中为工业零件图像，i为第i个样本，为对应的类标签集合，yi是每个类标签，n是图像总数，是类别标签的文本嵌入，ck为属性标注，k是类数，k为第k类，为属性嵌入集合，每个元素αm表示属性词嵌入的向量，m为属性嵌入总数；

23、s25、利用文本知识引导下的对比学习训练图文融合对比学习模型。

24、进一步的，所述利用图像编码器提取工业零件图像的特征，并使用预训练的文本编码器提取工业零件相关的类别标签的文本嵌入和属性嵌入集合包括以下步骤：

25、s211、利用图像编码器提取工业零件图像ii的特征，生成特征映射，其中，图像编码器为resnet-18；

26、s212、将属性嵌入集合输入预训练的文本解码器生成相应的属性特征gφ(αm)＝am’:，am’:为m对应属性嵌入矩阵，并将属性标注输入预训练的文本解码器生成相应的类别标签的文本嵌入集合，其中，预训练的文本编码器为预训练的clip文本编码器vit-b/16。

27、进一步的，所述属性权重机制中权重的计算公式为：

28、

29、式中，ωm为权重向量，νm为属性嵌入集合αm的标注值，m为第m个样本，m为属性嵌入总数。

30、进一步的，所述通过通道条件提示模块对获取的特征图进行处理，得到用于对比学习的特征包括以下步骤：

31、s231、将s211中生成的特征映射分为t组，并利用图像编辑器fθ将工业零件图像ii转换为通道方向的特征向量ft’:，fθ(ii)＝ft’：；

32、s232、利用包含隐藏层的多层感知器将特征向量ft’:转换为上下文标记l′t，h(ft,:)＝l′t，其中，h(·)表示为一个包含一个隐藏层的多层本文档来自技高网...

【技术保护点】

1.一种基于图文融合对比学习预测方法，其特征在于，该基于图文融合对比学习预测方法包括以下步骤：

2.根据权利要求1所述的一种基于图文融合对比学习预测方法，其特征在于，所述获取工业零件图像数据，并为工业零件图像数据配对相关类别标签的文本嵌入，同时对工业零件图像数据和文本嵌入数据进行预处理包括以下步骤：

3.根据权利要求2所述的一种基于图文融合对比学习预测方法，其特征在于，所述预设属性包括形状、大小、表面粗糙度、纹理变化、颜色差异性、边缘清晰度、反光性及对称度；

4.根据权利要求3所述的一种基于图文融合对比学习预测方法，其特征在于，所述三个子数据集包括子数据集PARTS-A、子数据集PARTS-B及子数据集PARTS-C；

5.根据权利要求1所述的一种基于图文融合对比学习预测方法，其特征在于，所述构建图文融合对比学习模型，并通过引入基于图像实例的属性权重机制来区分缺陷种类，采用按通道条件提示模块进行特征拆分和信息提取，同时利用训练集对图文融合对比学习模型进行训练包括以下步骤：

6.根据权利要求5所述的一种基于图文融合对比学习

7.根据权利要求5所述的一种基于图文融合对比学习预测方法，其特征在于，所述属性权重机制中权重的计算公式为：

8.根据权利要求6所述的一种基于图文融合对比学习预测方法，其特征在于，所述通过通道条件提示模块对获取的特征图进行处理，得到用于对比学习的特征包括以下步骤：

9.根据权利要求5所述的一种基于图文融合对比学习预测方法，其特征在于，所述利用文本知识引导下的对比学习训练图文融合对比学习模型包括以下步骤：

10.根据权利要求1所述的一种基于图文融合对比学习预测方法，其特征在于，所述调整图文融合对比学习模型的参数并进行多次训练，利用测试集对训练好的图文融合对比学习模型进行测试，并进行性能评估包括以下步骤：

...

【技术特征摘要】

1.一种基于图文融合对比学习预测方法，其特征在于，该基于图文融合对比学习预测方法包括以下步骤：

4.根据权利要求3所述的一种基于图文融合对比学习预测方法，其特征在于，所述三个子数据集包括子数据集parts-a、子数据集parts-b及子数据集parts-c；

5.根据权利要求1所述的一种基于图文融合对比学习预测方法，其特征在于，所述构建图文融合对比学习模型，并通过引入基于图像实例的属性权重机制来区分缺陷种类，采用按通道条件提示模块进行特征拆分和信息提取，同时利用训练集对图文融合对比...

【专利技术属性】
技术研发人员：张梦怡，李新宁，朱文俊，易阳，王村松，薄翠梅，彭浩，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人