基于CLIP和持续学习的ISAR图像识别方法及系统技术方案

技术编号：40807890 阅读：17 留言：0更新日期：2024-03-28 19:31

本发明专利技术提供了一种基于CLIP和持续学习的ISAR图像识别方法及系统，包括：步骤1：ISAR图像预处理及生成相应说明文本；步骤2：使用CLIP模型提取ISAR图像的图像特征和说明文本的文本特征；步骤3：构建持续学习缓存模型，并进行参数微调；步骤4：输入ISAR图像进行识别推理，根据输入的ISAR图像输出匹配程度最高的识别结果。本发明专利技术利用CLIP模型强大的跨模态能力将ISAR图像和说明文本联系起来，同时借助持续学习方法抑制微调过程可能发生的灾难性遗忘，使得识别方法与系统能够处理更加丰富的信息，解决了当前ISAR图像识别系统在面对信息量丰富的ISAR图像时处理能力有限的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习及isar图像识别，具体地，涉及一种基于clip和持续学习的isar图像识别方法及系统。

技术介绍

1、isar是一种能够对非合作目标进行高分辨率成像的技术，具备超远距离成像的能力，能在各种天气、复杂环境下工作。通过对雷达回波信号在进行处理生成的isar图像中包含了目标的位置、距离、形状、相对姿态、运动状态等丰富的信息。近年来，基于深度学习的图像分类方法大获成功，在遥感、医疗、安防等许多领域都得到广泛应用。由其衍生出的基于深度学习的isar图像识别方法，也已经被证明了具有强大的性能，训练良好的深度神经网络能够以极快的速度和极高的准确率对大量isar图像进行识别。针对isar图像获取困难的问题，还发展了少样本识别的技术。但目前方法大多都只是基于isar图像以及标签信息来训练神经网络。

2、专利文献cn116994143a(申请号：cn202311044597.5)公开了一种基于复数区域图transformer的机动空间目标识别方法，加入了基于自监督学习策略的对比学习方法增强深度神经网络对isar图像的处理能力。这类方法通过进一步利用图像本身的特征，减少了对标签信息的依赖，但仍然没有很充分地利用isar图像以外的先验知识和提示信息。因此需要一种能够接收更多输入信息来提升深度神经网络对isar图像识别能力的方法。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种基于clip和持续学习的isar图像识别方法和系统。

2、根据本

3、步骤1：进行isar图像预处理，生成相应说明文本；

4、步骤2：使用clip模型提取isar图像的图像特征和说明文本的文本特征；

5、步骤3：构建持续学习缓存模型，并进行参数微调；

6、步骤4：输入isar图像进行识别推理，根据输入的isar图像输出匹配程度最高的识别结果。

7、优选地，所述步骤1包括：

8、接收isar图像数据，进行数据增强，包括：旋转、翻转、裁剪、缩放、颜色变换、噪声注入和模糊处理；

9、制作相应的说明文本，说明文本中包含isar图像类别和数据增强方式；

10、得到isar图像数据集{xi}n，c与说明文本数据集{ti}n，c，其中n表示数据集中图像xi或文本ti的总数量，c表示类别数量。

11、优选地，所述步骤2包括：

12、使用clip模型的图像编码器fimage提取isar图像xi的图像特征fimage(xi；θ)，使用clip模型的文本编码器ftext提取对应说明文本ti的文本特征ftext(ti；θ)，其中θ表示clip模型的参数；对于clip模型，fimage(xi；θ)和ftext(ti；θ)都是512维的向量；

13、输入多组isar图像和说明文本，得到多对图像特征和文本特征；

14、对用于训练的数据集中所有图像和文本，都进行特征提取；

15、使用提取的图像特征和文本特征，计算出图像特征和文本特征之间的相似度得分：

16、sa，b，θ＝cossim＜fimage(xa；θ)，ftext(tb；θ)＞

17、其中：cossim＜*，*＞表示计算余弦相似度；当a＝b时，sa，a，θ表示isar图像xa与其对应说明文本ta的特征的相似度得分；当a≠b时，sa，b，θ表示isar图像xa与isar图像xb对应的说明文本tb的特征的相似度得分。

18、优选地，所述步骤3包括：

19、随机从每个类别中抽取k张图像，共计得到c·k张图像，c表示类别数量，用这些图像的图像特征和标签真值独热编码分别为键和值，构建持续学习的初始缓存模型，该缓存模型包含共c·k个键值对，由图像特征向量构成的键部分表示为由标签真值独热编码构成的值部分表示为在训练过程中，微调缓存模型的键部分fcache，使得更好地反映数据集的图像特征；

20、在训练过程中，对于输入的每张isar图像xi的图像特征，计算其与各个类别对应说明文本tc的特征的相似度得分，得到一个c维向量fclip，即clip模型本身的分类器对图像xi的输出；

21、计算的图像特征fimage(xi；θ)与缓存模型中各图像特征的相似度得分，即：通过非线性变换将其从[-1，1]映射到[0，1]，β是一个超参数，然后再与lcache相乘得到一个c维向量fcache，即持续学习缓存模型对图像xi的输出；

22、整个模型对图像xi的输出表示为fout＝fclip+αfcache，其中α是超参数；

23、使用该输出fout与图像xi的真实类别标签构造交叉熵损失，对持续学习缓存模型键参数进行梯度下降优化。

24、优选地，所述步骤4包括：对于每个待识别的isar图像xtest，经由clip模型的图像编码器提取特征、clip模型本身的分类器计算输出、微调好的缓存模型计算输出，得到最终输出fout，经过softmax函数得到isar图像xtest的识别结果。

25、根据本专利技术提供的基于clip和持续学习的isar图像识别系统，包括：

26、模块m1：进行isar图像预处理，生成相应说明文本；

27、模块m2：使用clip模型提取isar图像的图像特征和说明文本的文本特征；

28、模块m3：构建持续学习缓存模型，并进行参数微调；

29、模块m4：输入isar图像进行识别推理，根据输入的isar图像输出匹配程度最高的识别结果。

30、优选地，所述模块m1包括：

31、接收isar图像数据，进行数据增强，包括：旋转、翻转、裁剪、缩放、颜色变换、噪声注入和模糊处理；

32、制作相应的说明文本，说明文本中包含isar图像类别和数据增强方式；

33、得到isar图像数据集{xi}n，c与说明文本数据集{ti}n，c，其中n表示数据集中图像xi或文本ti的总数量，c表示类别数量。

34、优选地，所述模块m2包括：

35、使用clip模型的图像编码器fimage提取isar图像xi的图像特征fimage(xi；θ)，使用clip模型的文本编码器ftext提取对应说明文本ti的文本特征ftext(ti；θ)，其中θ表示clip模型的参数；对于clip模型，fimage(xi；θ)和ftext(ti；θ)都是512维的向量；

36、输入多组isar图像和说明文本，得到多对图像特征和文本特征；

37、对用于训练的数据集中所有图像和文本，都进行特征提取；

38、使用提取的图像特征和文本特征，计算出图像特征和文本特征之间的相似度得分：

39、sa，b，θ＝cossim＜fimage(xa；θ)，ftext(tb；θ)＞

本文档来自技高网...

【技术保护点】

1.一种基于CLIP和持续学习的ISAR图像识别方法，其特征在于，包括：

2.根据权利要求1所述的基于CLIP和持续学习的ISAR图像识别方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的基于CLIP和持续学习的ISAR图像识别方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述的基于CLIP和持续学习的ISAR图像识别方法，其特征在于，所述步骤3包括：

5.根据权利要求1所述的基于CLIP和持续学习的ISAR图像识别方法，其特征在于，所述步骤4包括：对于每个待识别的ISAR图像xtest，经由CLIP模型的图像编码器提取特征、CLIP模型本身的分类器计算输出、微调好的缓存模型计算输出，得到最终输出fOut，经过softmax函数得到ISAR图像xtest的识别结果。

6.一种基于CLIP和持续学习的ISAR图像识别系统，其特征在于，包括：

7.根据权利要求6所述的基于CLIP和持续学习的ISAR图像识别系统，其特征在于，所述模块M1包括：

8.根据权利要求6所述的基于CLIP和持

9.根据权利要求6所述的基于CLIP和持续学习的ISAR图像识别系统，其特征在于，所述模块M3包括：

10.根据权利要求6所述的基于CLIP和持续学习的ISAR图像识别系统，其特征在于，所述模块M4包括：对于每个待识别的ISAR图像xtest，经由CLIP模型的图像编码器提取特征、CLIP模型本身的分类器计算输出、微调好的缓存模型计算输出，得到最终输出fOut，经过softmax函数得到ISAR图像xtest的识别结果。

...

【技术特征摘要】

1.一种基于clip和持续学习的isar图像识别方法，其特征在于，包括：

2.根据权利要求1所述的基于clip和持续学习的isar图像识别方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的基于clip和持续学习的isar图像识别方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述的基于clip和持续学习的isar图像识别方法，其特征在于，所述步骤3包括：

5.根据权利要求1所述的基于clip和持续学习的isar图像识别方法，其特征在于，所述步骤4包括：对于每个待识别的isar图像xtest，经由clip模型的图像编码器提取特征、clip模型本身的分类器计算输出、微调好的缓存模型计算输出，得到最终输出fout，经过softmax函数得到isar图像xtest的识别结果。

【专利技术属性】
技术研发人员：骆源，刘瑾，黄嘉智，宫俊，占银玉，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人