【技术实现步骤摘要】
基于语义原型树的端到端图像字幕生成方法
[0001]本专利技术涉及跨模态信息理解
,更具体的是涉及基于语义原型树的端到端图像字幕生成方法。
技术介绍
[0002]近年来,随着深度神经网络技术的快速发展,和图像、文本等数据的爆炸式增长,图像认知、文本理解等单模态技术已经日趋成熟,并被广泛应用于各个领域。但是,图像字幕生成技术由于身处跨模态领域,往往存在视频信息与文本信息密度不对等的问题,导致即便图像信息提取模块能维持较高的认知水平,文本生成模块却缺乏与之对应水准的理解能力,导致后者无法充分利用图像特征生成准确无误的解释性文本,从而未能得到广泛的支持和应用。
[0003]其中,图像描述生成任务是一种功能性较强、应用前景广泛的图像多模态技术,它利用用户给出的一张图片,在线地对图片内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出一个合适的文本描述。由于图像描述生成技术满足基于语言的人机交互范式,因此该研究有助于基于内容的图像信息检索、情景分析和视觉障碍辅助等领域的发展。
[0004]学习图像字幕生成技术的主流解决方案是一种两阶段模型,它旨在用预训练的视觉编码器来解析图像特征,然后通过这些提取好的离线图像特征,利用注意力机制来推理出描述词汇。然而,这种传统的两阶段模型存在两个问题。首先,这种离线的图像特征的提取过程耗时较长,导致整体模型难以应用到实时的在线场景中,以及,这种在别的预训练任务上训练的预训练模型提取的图像特征与下游的跨模态任务所需要的图像特征之间存在差异,导 ...
【技术保护点】
【技术特征摘要】
1.基于语义原型树的端到端图像字幕生成方法,其特征在于,包括以下步骤:S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。2.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S1具体包括:首先,将输入图像I∈R
HxWx3
分割为B个不相交的补丁区域,将局部区域记为I∈R
PxPx3
;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H
×
W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。3.根据权利要求2所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。4.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。5.根据权利要求4所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述分层聚类算法,如下表示:其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,F
L
;表示第l层、第f个聚类词,F
l
表示第l层所包含的原型词数目;首先,使用聚类算法(K
‑
Means、gmm)...
【专利技术属性】
技术研发人员:高联丽,朱晋宽,顾嘉扬,曾鹏鹏,宋井宽,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。