基于编码-解码端的图像对差异描述方法技术

技术编号：33711870 阅读：34 留言：0更新日期：2022-06-06 08:46

本发明专利技术涉及基于解码

全部详细技术资料下载

【技术实现步骤摘要】
基于编码
‑
解码端的图像对差异描述方法

[0001]本专利技术涉及基于编码
‑
解码端的图像对差异描述方法，属于跨自然语言处理和计算机视觉领域的多模态

技术介绍

[0002]本专利技术生活在一个瞬息万变的世界中，事物的变化在日常生活中无处不在。作为人类，本专利技术可以从动态任务环境中检测到的变化并从中推断出底层信息。例如，一个良好的神经网络内科医生除了定位病变外，还可以通过比较不同时间捕获的CT图像来更好地判断患者病情的发展。但是对于计算机来说，理解图像并且在检测到的差异时能自动生成报告就是一件非常困难的事。因而，在损害检测，视频监控，航空摄影，医学影像，卫星影像等许多的应用中，如何准确地发现图像对中差异并自动生成报告，是急需解决的关键问题。
[0003]近年来,结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉领域学者的关注。主流的任务包括图像描述生成、机器视觉问答、视觉对话生成、视觉推理以及从文本到图像的自动生成等。用自然语言描述图像内容(图像描述生成)是人工智能研究中一个热门领域，目前已经提出了许多用于图像差异描述的方法。当前的图像差异分析与理解技术只能分析与识别特定有限的图片对信息，只能简单的差异描述，无法在有干扰因素(光照/视角变化)的条件下对图像差异进行精准的描述。所以，本专利技术需要一种的新差异描述技术，能够使计算机准确识别图像中的复杂语义信息，发现图像对之间的不同，并利用自然语言处理技术生成更符合人类语言习惯的语句级别的文字描述。
>
技术实现思路

[0004]本专利技术提供了基于编码
‑
解码端的图像对差异描述方法，以用于解决在存在视觉/光照等干扰因素存在的情况下，差异定位不准确、描述错误等问题，提升模型的鲁棒性。
[0005]本专利技术的技术方案是：基于编码
‑
解码端的图像对差异描述方法，所述方法的具体步骤如下：
[0006]Step1、利用预训练好的卷积神经网络作为特征提取器，将变化前/后的图像送入特征提取器中获得两张图像的视觉特征；
[0007]Step2、通过语意
‑
位置提纯器来对每张图像内语意交互和位置关系的建模，从而深度理解图像的细粒度信息，这是获的精准差异表征的基础；
[0008]Step3、获取图像间的差异表征：经过上述操作获得图像的细粒度理解的前提下，利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程，获得准确的差异表征；分层匹配机制包含了两个部分：语意匹配模块和检查再匹配模块；
[0009]Step4、将差异表征送入解码器中，解码出能够描述两张图像之间的差异的自然语言句子；
[0010]Step5、使用5种评价指标来全面、客观的评估本专利技术模型的性能。
[0011]作为本专利技术的进一步方案，所述Step1中包括：为了得到视觉特征，在ImageNet上
使用预训练好的ResNet
‑
101作为特征提取器来获取图像的网格特征并将其平均池化为14
×
14的网格大小。
[0012]作为本专利技术的进一步方案，所述Step2中：首先对图像的绝对位置和相对位置关系进行编码。相邻物体之间的位置不会因为视点的变化而改变，这可以被视为区分真实和视角变化的先验知识。与传统的位置嵌入不同，本专利技术相对位置编码使用了一种动态的方式，可以在所需的特征之间的相互作用的驱动下自动学习，特征间的相对位置通过对图像相对左上角和右下角的坐标进行建模得到一个4维的相对位置坐标；通过在原始图像特征中注入绝对位置信息，物体的变化可以被灵敏的辨别出来。为每个特征分配了一个有顺序的固定令牌来表示绝对位置关系，具体来说，使用不同频率的正弦和余弦函数来编码；
[0013]所述Step2的具体步骤：
[0014]Step2.1、对图片中特征之间的相对位置进行编码：对图像的相对左上角和右下角的坐标进行编码得到特征的相对位置坐标；
[0015]Step2.2、通过在原始图像特征中注入绝对位置信息，物体的变化被敏感地分辨出来；对图像中的每个特征分配了一个有顺序的固定值来表示每个特征的绝对位置；
[0016]Step2.3、基于自注意力机制，整合位置和语意关系得到细粒度信息，这种信息能成为区分真实变化和视觉/光照变化的先验知识。
[0017]作为本专利技术的进一步方案，所述Step2.2中，具体来说使用不同频率的正弦和余弦函数来编码绝对位置。
[0018]作为本专利技术的进一步方案，所述Step3的具体步骤为：
[0019]Step3.1、通过先找出图像间的共同特征再来找差异，语意匹配模块首先匹配变化前和后图像的共同特征，即通过前/后图像扫描后/前图像以获得共同特征；
[0020]区分真实的变化和视角/光照的变化是这项任务的关键，更具有挑战性的是，当视角变化的幅度超过微小的变化时，如何捕捉这些微小的变化。此外，直接去找图片之间的差异并不现实，所有本专利技术采用先找相同的特征，再转化为寻找差异的策略。通过上述获得的细粒度交互知识，语意匹配模块大致匹配变化前和后图像的共同特征，即通过前/后图像扫描后/前图像以获得共同特征；
[0021]Step3.2、利用检查再匹配模块将变化前/后的图像视为参照源，通过细化共同特征使微小的变化变得突出。
[0022]如果物体的运动过于轻微，微小的变化将被大多数未改变的部分所淹没。在这种情况下，模型会误认为这两幅图像是很匹配的。事实上，这种微小的变化被共同特征所掩盖。为了在交互过程中捕捉这种微小的变化，需要一个有效的再检查来揭示来自共同特征的差异信号，并帮助模型描述准确的变化。检查再匹配机制将变化前/后的图像视为参照源，通过细化共同特征使微小的变化变得突出；
[0023]作为本专利技术的进一步方案，所述Step4的具体步骤为：
[0024]Step4.1、空间注意力定位变化前和后图像中的差异，并将其输出送入基于从上往下的LSTM句子解码器，生成能够描述变化的自然语言；
[0025]Step4.2、通过最小化得到的单词序列的负可能性来联合训练编码和解码器。
[0026]所述Step5中包括：评估指标包括BIEU
‑
4,METEOR、CIDEr、ROUGE
‑
L和SPICE。如果语义识别正确，句子结构与视觉特征更吻合，这些分数就会更高。
[0027]本专利技术的有益效果是：
[0028]本专利技术提出的基于编码
‑
解码端的图像对差异描述方法，具有强大的鲁棒性，能够在存在视角、光照等干扰因素下准确的描述两张图像之间的差异，能够解决损害检测、视频监控、航空摄影、医学影像、卫星影像等领域中自动生成差异描述报告的难题，减少人力资源的耗费，大大节省时间和人员成本。
[0029]本专利技术首次尝试探索动态建模几何
‑
语义交换关系在差异描述中；通过整合由差异表征学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于编码
‑
解码端的图像对差异描述方法，其特征在于：所述方法的具体步骤如下：Step1、利用预训练好的卷积神经网络作为特征提取器，将变化前/后的图像送入特征提取器中获得两张图像的视觉特征；Step2、通过语意
‑
位置提纯器来对每张图像内语意交互和位置关系的建模，从而深度理解图像的细粒度信息；Step3、获取图像间的差异表征：利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程，获得准确的差异表征；Step4、将差异表征送入解码器中，解码出能够描述两张图像之间的差异的自然语言句子。2.根据权利要求1所述的基于编码
‑
解码端的图像对差异描述方法，其特征在于：所述Step1中包括：为了得到视觉特征，使用预训练好的ResNet
‑
101作为特征提取器来获取图像的网格特征。3.根据权利要求1所述的基于编码
‑
解码端的图像对差异描述方法，其特征在于：所述Step2的具体步骤：Step2.1、对图片中特征之间的相对位置进行编码：对图像的相对左上角和右下角的坐标进行编码得到特征的相对位置坐标；Step2.2、通过在原始图像特征中注入...

【专利技术属性】
技术研发人员：高盛祥，岳圣斌，余正涛，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人