一种基于卷积和注意力机制的图像差异识别方法技术

技术编号:36401606 阅读:18 留言:0更新日期:2023-01-18 10:08
一种基于卷积和注意力机制的图像差异识别方法,模板图像和对比图像分别输入编码器,经过多层由查询块和编码块组成的查询编码层编码之后,输出到解码器。在训练阶段,输入样本对儿对应的标签、并设定损失函数对模型进行训练。在推理阶段,模型解码器输出预测结果。利用计算机程序和图像传感器拍摄的图像,可以自动实现多张图像之间的内容差异识别,为现实应用中通过图像对比识别敏感内容的需求提供了一种健壮的智能化对别方法。种健壮的智能化对别方法。种健壮的智能化对别方法。

【技术实现步骤摘要】
一种基于卷积和注意力机制的图像差异识别方法


[0001]本专利技术涉及人工智能机器视觉的智能识别领域,具体涉及一种基于卷积和注意力机制的图像差异识别方法。

技术介绍

[0002]使用像机等图像传感器记录同一场景不同时刻的画面,对这些画面进行对比,从而甄别出场景的变化是一种常见的需求。例如,从遥感卫星拍摄的同一地点不同时期的地表变化图像,可以识别建筑、土壤、植被、重要设施等多种地表可观察事物的演变。或者,通过显微镜对别细胞、菌落等不同时刻的图像,可以观察实验的进展。再或者,通过照相机记录设备运转过程中不同时刻的画面,可以推理出设备破损、老化情况。这些场景中,大多数情形下,无法通过简单的图像颜色、像素值的变化自动识别出内容的变化,尤其是现实中拍摄时无法保证传感器姿态、拍摄环境、拍摄参数等多种条件一致,工业应用迫切需要一种健壮性的方法,可以允许在一定拍摄误差下智能识别出图像内容差异的技术。

技术实现思路

[0003]本专利技术为了克服以上技术的不足,提供了一种可以对抗相机角度、位姿、参数、光照环境等变化的情形的基于卷积和注意力机制的图像差异识别方法。
[0004]本专利技术克服其技术问题所采用的技术方案是:一种基于卷积和注意力机制的图像差异识别方法,包括如下步骤:a)建立图像差异识别模型,该模型由查询编码器、解码器及分类器构成;b)将模板图像和对比图像输入到编码器中;c)将编码器的输出结果输入到解码器中进行解码,输出得到预测结果图像。
[0005]进一步的,步骤b)包括如下步骤:b

1)所述编码器N个查询编码层堆叠构成,每个查询编码器的输入来自上一个查询编码器的输出,N为大于等于2的正整数,每一个查询编码器由查询块和编码块构成;b

2)将模板图像输入到第一个查询编码层中的查询块,查询块利用卷积操作对模板图像进行编码,输出得到特征图;b

3)将第一个查询编码层中的查询块输出的特征图输入到第二个查询编码层中的查询块中,输出得到特征图;b

4)重复步骤b

3)直至第N个查询编码层的查询块输出特征图;b

5)将第一个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后与经经过分割和线性投影之后的对比图像的编码一起输入到第一个查询编码层中的编码块中,编码块利用多头注意力模块进行再编码,输出最新的编码;b

6)将第一个查询编码层的编码块的输出复制两份,分别作为键和值输入到第二个查询编码层中的编码块中,将第二个查询编码层中的查询块输出的特征图切割为相同尺
寸的多个子区域,将切割后的多个子区域进行线性投影后输入到第二个查询编码层中的编码块中,输出得到特征图分割后的线性投影的输出;b

7)重复步骤b

6)直至第N个查询编码层的编码块输出编码特征。
[0006]进一步的,步骤c)包括如下步骤:c

1)将第N个查询编码层的编码块输出特征图分割后的输出转换为与第N个查询编码层的查询块输出特征图相同大小的特征矩阵,将两个特征矩阵拼接操作,得到多通道的特征矩阵;c

2)解码器由M个堆叠的卷积层构成,每个卷积层后设置上采样层,M为大于等于2的正整数;c

3)将多通道的特征矩阵输入到解码器中的第一个卷积层中,输出得到特征图;c

4)将特征图输入到解码器中的第一个上采样层中,输出得到上采样后的特征图;c

5)重复执行步骤c

3)至c

4),直至得到第M个上采样层输出的特征图,该特征图作为预测结果图像。
[0007]进一步的,还包括在步骤c)后执行如下步骤:d

1)收集一个模板数据集,该模板数据集包含多张模板图像,对模板图像进行标注,使用多边形覆盖标注的模板图像中有意义的实体;d

2)将标注的有意义的实体区域抠出,将抠出的图像粘贴到模板图像,得到该模板图像的对比图像;d

3)记录每个有意义的实体在粘贴到模板图像时的位置,得到对比图像相对于模板图像的变化区域,该变化区域作为动态区域,模板图像上其它区域作为静态区域,创建一张和模板图像大小相同的空白图像作为标签,在静态区域将其值设置为0,在动态区域将其值设置为1。
[0008]本专利技术的有益效果是:利用计算机程序和图像传感器拍摄的图像,可以自动实现多张图像之间的内容差异识别,为现实应用中通过图像对比识别敏感内容的需求提供了一种健壮的智能化对别方法。
附图说明
[0009]图1为本专利技术的模型结构图。
具体实施方式
[0010]下面结合附图1对本专利技术做进一步说明。
[0011]一种基于卷积和注意力机制的图像差异识别方法,包括如下步骤:a)建立图像差异识别模型,该模型由查询编码器、解码器及分类器构成。
[0012]b)将模板图像和对比图像输入到编码器中。
[0013]c)将编码器的输出结果输入到解码器中进行解码,输出得到预测结果图像。
[0014]模板图像和对比图像分别输入编码器,经过多层由查询块和编码块组成的查询编码层编码之后,输出到解码器。在训练阶段,输入样本对儿对应的标签、并设定损失函数对模型进行训练。在推理阶段,模型解码器输出预测结果。该方法可以依靠计算机程序运行,
自动识别两张主体内容相同但存在局部差异的图像,方法具有极高的健壮性,对图像间的相同内容区域不要求像素值对应,可以对抗相机角度、位姿、参数、光照环境等变化的情形。
[0015]实施例1:步骤b)包括如下步骤:b

1)所述编码器N个查询编码层堆叠构成,每个查询编码器的输入来自上一个查询编码器的输出,N为大于等于2的正整数,每一个查询编码器由查询块和编码块构成。
[0016]b

2)将模板图像输入到第一个查询编码层中的查询块,查询块利用卷积操作对模板图像进行编码,输出得到特征图。
[0017]b

3)将第一个查询编码层中的查询块输出的特征图输入到第二个查询编码层中的查询块中,输出得到特征图。
[0018]b

4)重复步骤b

3)直至第N个查询编码层的查询块输出特征图。
[0019]b

5)将第一个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后与经经过分割和线性投影之后的对比图像的编码一起输入到第一个查询编码层中的编码块中,编码块利用多头注意力模块进行再编码,输出最新的编码。
[0020]b

6)将第一个查询编码层的编码块的输出复制两份,分别作为键和值输入到第二个查询编码层中的编码块中,将第二个查询编码层中的查询块输出的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积和注意力机制的图像差异识别方法,其特征在于,包括如下步骤:a)建立图像差异识别模型,该模型由查询编码器、解码器及分类器构成;b)将模板图像和对比图像输入到编码器中;c)将编码器的输出结果输入到解码器中进行解码,输出得到预测结果图像。2.根据权利要求1所述的基于卷积和注意力机制的图像差异识别方法,其特征在于,步骤b)包括如下步骤:b

1)所述编码器N个查询编码层堆叠构成,每个查询编码器的输入来自上一个查询编码器的输出,N为大于等于2的正整数,每一个查询编码器由查询块和编码块构成;b

2)将模板图像输入到第一个查询编码层中的查询块,查询块利用卷积操作对模板图像进行编码,输出得到特征图;b

3)将第一个查询编码层中的查询块输出的特征图输入到第二个查询编码层中的查询块中,输出得到特征图;b

4)重复步骤b

3)直至第N个查询编码层的查询块输出特征图;b

5)将第一个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后与经经过分割和线性投影之后的对比图像的编码一起输入到第一个查询编码层中的编码块中,编码块利用多头注意力模块进行再编码,输出最新的编码;b

6)将第一个查询编码层的编码块的输出复制两份,分别作为键和值输入到第二个查询编码层中的编码块中,将第二个查询编码层中的查询块输出的特征图切割为相同尺寸的多个子区域,将切割后的多个子区域进行线性投影后输入到第二个查询编码层中的编码块中,输出得到特征图分割后的线性投影的输出;b

7)重复步骤b
...

【专利技术属性】
技术研发人员:高岩郝虹尹青山宋虎南国
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1