一种基于可学习提示的零样本异常图像检测方法技术

技术编号:39180228 阅读:19 留言:0更新日期:2023-10-27 08:28
本发明专利技术公开了一种基于可学习提示的零样本异常图像检测方法。设计了基于上下文优化的可学习提示生成模块,包含了参数可优化的可学习提示和图像异常状态提示;利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征,同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度,构建图像异常区域计算模块,获得待检图像的异常区域。本发明专利技术提出的可学习提示避免了人工设计提示的复杂性和不稳定性,同时改善了图像异常检测的准确性,保证了零样本学习的有效性和高效性,极大降低了预训练视觉语言大模型迁移到下游任务的成本。务的成本。务的成本。

【技术实现步骤摘要】
一种基于可学习提示的零样本异常图像检测方法


[0001]本专利技术涉及计算机视觉和异常图像检测领域的一种图像异常检测方法,特别涉及一种基于可学习提示的零样本异常图像检测方法。

技术介绍

[0002]异常检测的主要任务是识别与常规模式不同的情形,广泛应用于视频监控、产品质量控制、医学诊断等领域。当前比较流行的异常检测方法大多利用无异常图像训练异常检测模型,进而定位图像的异常区域。然而这些方法为每一个特定物体类别构建相对应的异常检测模型,同时依赖大量的对应类别正常图像,无法满足包含大量物体类别的真实世界异常检测需求。基于提示工程的零样本学习为异常检测在真实世界中的应用打开了新的局面。
[0003]然而,提示工程的设计严重依赖领域专家经验,并且需要花费大量的时间来手工优化提示。
[0004]另外,手工设计提示中的个别文本改动都可能给检测性能带来巨大影响,具有较强的不稳定性。

技术实现思路

[0005]本专利技术的目的是为了解决
技术介绍
而提出的一种基于可学习提示的零样本异常图像检测方法,通过构建可学习提示增强提示工程的泛化能力,缓解人工设计提示对特定领域知识的依赖程度。另外,通过可学习提示与状态提示的有机组合,提升零样本异常检测的准确性,同时保证提示工程的稳定性和可靠性。
[0006]为了实现上述目的,本专利技术采用的技术方案为:
[0007]1)建立零样本的异常图像检测网络;
[0008]2)利用异常图像检测网络;
[0009]3)将待测图像输入到训练后的异常图像检测网络获得异常区域热图,根据异常区域热图获得异常区域。
[0010]所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块;视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块,同时通过可学习提示生成模块获得可学习提示嵌入,将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块,异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。
[0011]所述的视觉编码网络包括依次进行的四个阶段,每个阶段均包含多层残差注意模块,每个阶段均输出视觉特征,四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出,第一阶段接收原始输入的图像,除了第一阶段的其余每个阶段均接收前一阶段输出的视觉特征。
[0012]所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得
四个视觉编码特征,四个视觉编码特征共同输入到异常区域计算模块中。
[0013]所述的可学习提示生成模块包括可学习提示和状态提示[state];
[0014]根据可学习提示和状态提示[state]按照以下公式获得可学习提示嵌入t,作为可学习提示生成模块的输出:
[0015]t=[V]1[V]2…
[V]N
[state][0016]所述的可学习提示中包含多个向量V
N
,每个向量的维度与状态提示[state]的维度相同,是通过随机初始化的方式获得,且在训练时随网络梯度不断更新优化;
[0017]所述的状态提示[state]是对状态state经由视觉语言对比模型(CLIP模型)编码获得,状态state为表示状态是否正常的字符串,由领域知识较弱的通用文本表示,分为属于正常状态的字符串和属于异常状态的字符串。
[0018]属于正常状态的字符串state通常可以为:'normal class','flawless class','perfect class','class without defect',分别代表正常类别,无缺陷类别,完美类别,没有缺陷的类别,

class

表示待检测图像中的物体类别。
[0019]属于异常状态的字符串state通常可以为:'abnormal class','damaged class','broken class','class with defect',分别代表非正常类别,损伤类别,损坏类别,有缺陷的类别。
[0020]所述的可学习提示生成模块输出可学习提示嵌入再输入到文本编码网络中获得文本特征。所述的文本编码网络采用视觉语言对比模型(CLIP模型)。
[0021]所述的异常区域计算模块中,是根据输入的视觉编码特征与文本特征按照以下方式的余弦相似度计算获得:
[0022]G
m
=softmax(F
m
@W
T
),m=1,2,3,4
[0023]其中,符号@表示矩阵相乘,softmax表示激活函数,W
T
表示文本特征的转置,F
m
表示视觉编码网络中第m阶段对应获得的视觉编码特征,G
m
表示视觉编码特征F
m
对应获得的初步异常区域图。
[0024]将异常区域计算模块输出的四个初步异常区域图经改变特征维度操作reshape后获得了四个异常区域图M
m
,再将四个异常区域图M
m
按对应元素相乘,获得最终的异常区域热图。
[0025]异常区域热图中大于设定异常阈值的像素区域即为最终的异常区域。
[0026]所述步骤2)训练时采用零样本迁移学习方法,对异常图像检测网络中的视觉编码网络、文本编码网络的网络参数不做更新,仅对可学习提示生成模块的参数以及多层感知机mlp的参数进行优化训练。训练过程使用Adam优化器,固定学习率0.001,训练批次为大小为8,迭代次数为1个epoch。
[0027]所述步骤3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。
[0028]本专利技术设计了基于上下文优化的可学习提示生成模块,包含了参数可优化的可学习提示和图像异常状态提示。利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征,同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度,构建图像异常区域计算模块,获得待检图像的异常区域。
[0029]本专利技术的有益效果是:
[0030]本专利技术方法能够利用弱领域知识的通用文本表达构建提示工程,极大缓解了对专家知识的依赖。
[0031]本专利技术提出的可学习提示避免了人工设计提示工程的复杂性和不稳定性,同时改善了图像异常检测的准确性。另外,所设计的可学习提示能够随网络梯度不断优化,实现了端到端的学习训练,保证了零样本学习的有效性和高效性,极大降低了预训练视觉语言大模型迁移到下游任务的成本;也能够对不同检测类别保持一致性,提高了可学习提示的泛化性能和稳定性。
附图说明
[0032]图1是基于可学习提示的异常图像检测网络;
[0033]图2是一种基于可学习提示的零样本异常图像检测方法示意图。...

【技术保护点】

【技术特征摘要】
1.一种基于可学习提示的零样本异常图像检测方法,其特征在于:1)建立异常图像检测网络;2)利用异常图像检测网络;3)将待测图像输入到训练后的异常图像检测网络获得异常区域热图,根据异常区域热图获得异常区域。2.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块;视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块,同时通过可学习提示生成模块获得可学习提示嵌入,将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块,异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。3.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的视觉编码网络包括依次进行的四个阶段,每个阶段均包含多层残差注意模块,每个阶段均输出视觉特征,四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出。4.根据权利要求3所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得四个视觉编码特征,四个视觉编码特征共同输入到异常区域计算模块中。5.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的可学习提示生成模块包括可学习提示和状态提示[state];根据可学习提示和状态提示[state]按照以下公式获得可学习提示嵌入t,作为可学习提示生成模块的输出:t=[V]1[V]2…
[V]
N
[state]所述的可学习提示中包含多个向量V
N
,每个向量的维度与状态提示[state]的维度相同,是通过随机初始化的方式获得;所述的状态提示[state]是对...

【专利技术属性】
技术研发人员:宋亚楠沈卫明
申请(专利权)人:浙江大学计算机创新技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1