基于冻结ViT特征融合网络的AI生成图像检测方法技术

技术编号：42609363 阅读：37 留言：0更新日期：2024-09-03 18:17

本发明专利技术涉及AI生成图像鉴别技术领域，具体涉及基于冻结ViT特征融合网络的AI生成图像检测方法。方法包括：获取待鉴别的图像以及由样本图像构成的数据集；基于冻结CLIP‑ViT建立多层次特征融合网络，利用数据集对多层次特征融合网络进行训练，获得训练好的多层次特征融合网络；将待鉴别的图像输入到训练好的多层次特征融合网络中，获得待鉴别的图像的鉴别结果。本发明专利技术提高了图像鉴别结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ai生成图像鉴别，具体涉及基于冻结vit特征融合网络的ai生成图像检测方法。

技术介绍

1、随着生成式对抗网络(generative adversarial networks，gans)和扩散模型(diffusion models)的飞速进步，计算机生成的图像和视频质量达到了前所未有的高度，有时甚至能够达到人眼难以分辨的逼真程度。特别是在大模型(如sora等)的广泛应用下，该领域技术人员可以轻松地利用文本作为引导，生成逼真的虚假图像或视频。这些技术不仅为艺术创作和娱乐产业带来了革命性的变化，同时也为虚假信息的传播提供了新途径。精心制作的虚假图像和视频，特别是那些被用于创建误导性新闻的素材，它们可能误导公众的判断，破坏社会信任，因此，如何有效地检测和识别这些由ai生成的图像和视频，成为了计算机视觉领域亟待解决的问题。

2、目前ai生成图像检测的泛化性普遍较差，ai生成图像检测模型在特定训练集上表现良好，但一旦面临新的、未见过的数据集，其检测精度往往大幅下降。这是因为模型在训练过程中过于依赖训练集数据的特征分布，导致其难以适应复杂多变的图像场景，这种泛化性不足的问题极大地限制了ai生成图像检测技术的实际应用价值。

技术实现思路

1、为了解决上述技术问题，本专利技术的目的在于提供一种基于冻结vit特征融合网络的ai生成图像检测方法，所采用的技术方案具体如下：

2、本专利技术提供了一种基于冻结vit特征融合网络的ai生成图像检测方法，该方法包括以下步骤：

3、获取待鉴别的图像以及由样本图像构成的数据集，所述数据集包含真实图像和ai生成的虚假图像；

4、基于冻结clip-vit建立多层次特征融合网络，利用所述数据集对多层次特征融合网络进行训练，获得训练好的多层次特征融合网络；

5、将待鉴别的图像输入到训练好的多层次特征融合网络中，获得待鉴别的图像的鉴别结果。

6、优选的，所述获取待鉴别的图像以及由样本图像构成的数据集，包括：

7、采集待评价的图像，对所述待评价的图像进行预处理获得待鉴别的图像；

8、获取图像数据集progan-train和progan-val作为模型训练过程中的训练数据集和验证数据集；将图像数据集cnn_synth_testset作为多层次特征融合网络测试过程中的测试数据集；

9、其中，progan-train、progan-val和cnn_synth_testset中均包含真实图像和ai生成图像；

10、对所有图像数据集中的图像进行预处理，获得样本图像，所有样本图像构成数据集。

11、优选的，图像的预处理，包括：

12、对图像进行随机裁剪和随机翻转，对裁剪和翻转后的图像进行标准化操作，获得标准化后的图像。

13、优选的，所述利用所述数据集对多层次特征融合网络进行训练，包括：

14、将数据集中的图像按照批次顺序逐一输入到多层次特征融合网络中，对于冻结的clip-vit提取特征的前12个stage返回的cls进行处理，获取输入图像的浅层特征；对于冻结的clip-vit提取特征的后12个stage返回的cls进行处理，获取输入图像的深层特征；

15、将浅层特征与深层特征分别进行映射并融合获取最终分类前的图像特征；

16、基于所述最终分类前的图像特征确定鉴别结果，其中鉴别结果为真实图像或ai生成的虚假图像。

17、优选的，多层次特征融合网络的特征选择模块包括平均池化层、全连接层、通道注意力机制、非线性激活层以及权重选择。

18、优选的，在对多层次特征融合网络训练时，还包括：

19、设定迭代次数、批次大小、学习率以及损失函数；将训练数据集进行分批次处理，逐批次地输入到多层次特征融合网络模型中进行迭代训练；

20、每训练一轮数据，利用验证数据集对训练过程中的多层次特征融合网络模型进行验证，得到模型的拟合情况并保存训练过程中多层次特征融合网络模型的模型参数；

21、从保存的模型参数中选择一组性能最优的参数作为最终训练好的多层次特征融合网络模型的参数。

22、优选的，所述损失函数为二元交叉熵损失函数，交叉熵损失函数的计算公式为：

23、loss＝-(y×log(p(x))+(1-y)×log(1-p(x)))

24、其中，loss为损失值，p(x)为模型输出，y为真实标签，log为对数函数，真实标签的数值为0或1。

25、优选的，对多层次特征融合网络进行训练之后，还包括：

26、对测试数据集中的图像顺序进行随机打乱，将打乱顺序后的图像输入到训练好的多层次特征融合网络模型中，得到训练好的基于冻结clip-vit多层次特征融合网络模型在测试数据集上的预测结果；

27、根据所述预测结果，利用acc和ap两个评估指标对训练好的基于冻结clip-vit多层次特征融合网络模型进行性能评估。

28、本专利技术至少具有如下有益效果：

29、本专利技术采用深度学习技术，并融合冻结的clip-vit提取的浅层特征与深层特征对图像的真假进行鉴别，该融合特征能够更准确地反映图像的特征，本专利技术采用基于clip-vit的特征方法，利用预训练的clip-vit强大的特征提取能力，使得系统能提取图像关键信息，有效地应对各种ai生成技术，并且通过冻结特征提取网络层，使得模型在提取图像特征时不受训练数据集的影响，增强伪造检测的泛化性和准确性；通过综合考虑图像的浅层特征和深层特征，能够更全面地分析图像的真实性，提高了ai生成图像鉴别及检测结果的准确性。本专利技术提供的ai生成图像检测方法结合了深度学习和特征选择融合的前沿技术，为ai生成图像检测领域带来了新的突破，采用该方法可以有效应对ai生成图像传播问题，也为解决当前社会面临的数字身份和信息安全问题提供了有力的技术支持。

本文档来自技高网...

【技术保护点】

1.一种基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，所述获取待鉴别的图像以及由样本图像构成的数据集，包括：

3.根据权利要求2所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，图像的预处理，包括：

4.根据权利要求2所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，所述利用所述数据集对多层次特征融合网络进行训练，包括：

5.根据权利要求1所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，多层次特征融合网络的特征选择模块包括平均池化层、全连接层、通道注意力机制、非线性激活层以及权重选择。

6.根据权利要求2所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，在对多层次特征融合网络训练时，还包括：

7.根据权利要求6所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，所述损失函数为二元交叉熵损失函数，交叉熵损失函数的计算公式为：

8.根据权利要求2所述的基于冻结ViT特征融合网络的AI生成图像检测方法，其特征在于，对多层次特征融合网络进行训练之后，还包括：

...

【技术特征摘要】

1.一种基于冻结vit特征融合网络的ai生成图像检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于冻结vit特征融合网络的ai生成图像检测方法，其特征在于，所述获取待鉴别的图像以及由样本图像构成的数据集，包括：

3.根据权利要求2所述的基于冻结vit特征融合网络的ai生成图像检测方法，其特征在于，图像的预处理，包括：

4.根据权利要求2所述的基于冻结vit特征融合网络的ai生成图像检测方法，其特征在于，所述利用所述数据集对多层次特征融合网络进行训练，包括：

5.根据权利要求1所述的基于冻结vit特征融合网...

【专利技术属性】
技术研发人员：牛亚坤，陈英健，张延锋，殷红建，张磊，冯继龙，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人