基于语义原型树的端到端图像字幕生成方法技术

技术编号:34953170 阅读:19 留言:0更新日期:2022-09-17 12:30
本发明专利技术公开了基于语义原型树的端到端图像字幕生成方法,涉及跨模态信息理解技术领域,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题,包在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,构建提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。失。失。

【技术实现步骤摘要】
基于语义原型树的端到端图像字幕生成方法


[0001]本专利技术涉及跨模态信息理解
,更具体的是涉及基于语义原型树的端到端图像字幕生成方法。

技术介绍

[0002]近年来,随着深度神经网络技术的快速发展,和图像、文本等数据的爆炸式增长,图像认知、文本理解等单模态技术已经日趋成熟,并被广泛应用于各个领域。但是,图像字幕生成技术由于身处跨模态领域,往往存在视频信息与文本信息密度不对等的问题,导致即便图像信息提取模块能维持较高的认知水平,文本生成模块却缺乏与之对应水准的理解能力,导致后者无法充分利用图像特征生成准确无误的解释性文本,从而未能得到广泛的支持和应用。
[0003]其中,图像描述生成任务是一种功能性较强、应用前景广泛的图像多模态技术,它利用用户给出的一张图片,在线地对图片内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出一个合适的文本描述。由于图像描述生成技术满足基于语言的人机交互范式,因此该研究有助于基于内容的图像信息检索、情景分析和视觉障碍辅助等领域的发展。
[0004]学习图像字幕生成技术的主流解决方案是一种两阶段模型,它旨在用预训练的视觉编码器来解析图像特征,然后通过这些提取好的离线图像特征,利用注意力机制来推理出描述词汇。然而,这种传统的两阶段模型存在两个问题。首先,这种离线的图像特征的提取过程耗时较长,导致整体模型难以应用到实时的在线场景中,以及,这种在别的预训练任务上训练的预训练模型提取的图像特征与下游的跨模态任务所需要的图像特征之间存在差异,导致基于不合适的图像特征推理得到的图像描述也是不贴切的;其次,这些方法局限于探索图像与文本信息之间的联系,而未考虑先验性的知识概念信息,这与人类认知过程的本质并不一致。具体地,当一个人类要求对图像进行概括性描述时,人类会先从大脑中挑出一部分符合这个图像大致内容的文本信息,缩小了生成描述时的检索空间,并将这些检索的词语作为推理过程中的指导。然而目前的图像描述生成方法对这一论点的理解仅停留在生硬而随机的概念选取上,并不能系统、高效地从词库中检索出对应的词语,导致模型待搜索的解空间仍停留在一个较大的范围。

技术实现思路

[0005]本专利技术的目的在于:提供一种基于语义原型树的端到端图像字幕生成方法,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题。
[0006]本专利技术为了实现上述目的具体采用以下技术方案:
[0007]基于语义原型树的端到端图像字幕生成方法,包括以下步骤:
[0008]S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始
图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;
[0009]S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;
[0010]S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;
[0011]S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
[0012]作为一种可选的技术方案,所述S1具体包括:
[0013]首先,将输入图像I∈R
HxWx3
分割为B个不相交的补丁区域,将局部区域记为I∈R
PxPx3
;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H
×
W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;
[0014]然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;
[0015]最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。
[0016]作为一种可选的技术方案,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。
[0017]作为一种可选的技术方案,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;
[0018]TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。
[0019]作为一种可选的技术方案,所述分层聚类算法,如下表示:
[0020][0021]其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,F
L
;表示第I层、第f个聚类词,F
l
表示第I层所包含的原型词数目;
[0022]首先,使用聚类算法(K

Means、gmm)在X上进行聚类,完成第一层的语义原型向量信息Z1,其中每一个原型向量都代表着一些相似语义的概念词的语义中心;在初始化第一层原型信息之后,TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型语义信息。
[0023]作为一种可选的技术方案,所述S3具体包括:
[0024]S3.1、为了使树结构的原型词向量能够辅助图像描述的生成,步骤S3中包含一个渐进的特征融合模块,将视觉栅格信息与原型词向量信息进行渐进地融合,从而得到一个
语义强化后的视觉特征,视觉特征会先与粗粒度的语义信息进行融合,后与细粒度的语义信息融合;
[0025]S3.2、在两个步骤的融合过程中,给定栅格特征G和树结构的原型语义向量Z,步骤S3会使用多头交叉注意力模块CMA,为栅格特征注入语义信息;
[0026]以第一个步骤的融合为例,该模块将栅格特征G映射为查询,语义原型向量映射为键和值,第i个交叉注意力模块CMA
i
可以表示为:
[0027][0028][0029]其中,MHA、FFN、LN都是未经更改的多头注意力机制,Z
i
表示第i层的原型向量,W
Q
、W
K
、W
V
R
DxD
都是可学习的参数矩阵,D表示特征维度;G
i
表示输入到第i层交叉注意力模块的栅格特征,表示在第i个交叉本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义原型树的端到端图像字幕生成方法,其特征在于,包括以下步骤:S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。2.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S1具体包括:首先,将输入图像I∈R
HxWx3
分割为B个不相交的补丁区域,将局部区域记为I∈R
PxPx3
;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H
×
W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。3.根据权利要求2所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。4.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。5.根据权利要求4所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述分层聚类算法,如下表示:其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,F
L
;表示第l层、第f个聚类词,F
l
表示第l层所包含的原型词数目;首先,使用聚类算法(K

Means、gmm)...

【专利技术属性】
技术研发人员:高联丽朱晋宽顾嘉扬曾鹏鹏宋井宽
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1