一种基于视觉概念词关联结构化建模的图像描述方法技术

技术编号:37775246 阅读:22 留言:0更新日期:2023-06-06 13:43
本发明专利技术涉及计算机视觉和自然语言处理领域。本发明专利技术提出了一种基于视觉概念词关联结构化建模的图像描述方法,通过图像描述模型对输入的图像,生成所述图像的描述语句。图像描述模型的训练过程包括:将训练数据输入视觉特征提取和编码模块,得到视觉特征;将视觉特征输入视觉概念预测模块,得到对应的视觉概念词,将视觉概念词输入视觉概念关联结构化建模模块,得到结构化视觉语义概念词特征;将视觉特征和结构化视觉语义概念词特征输入描述生成模块,得到描述语句。基于总体损失函数训练模型。本发明专利技术提供的方法对单词在文本模态中的语言学先验的提取做了有效的约束。言学先验的提取做了有效的约束。言学先验的提取做了有效的约束。

【技术实现步骤摘要】
一种基于视觉概念词关联结构化建模的图像描述方法


[0001]本专利技术涉及人工智能领域,具体涉及一种基于视觉概念词关联结构化建模的图像描述方法。

技术介绍

[0002]随着互联网技术的快速发展和应用,从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流。这些图像为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务,贯通了计算机视觉与自然语言处理两个领域的技术,旨在让计算机识别、分析和理解给定图像的内容,并准确生成流畅自然的描述性语句,辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。
[0003]传统方法通常将预训练的视觉特征提取器作为编码器来挖掘图像中的视觉信息,再联合部分已生成的文本信息,送入Transformer解码器中预测文本描述。这种方式通常存在两方面缺陷:一方面,视觉特征提取器的感知能力受到预定义的类标签的严重限制,使得解码器过度依赖语言先验,有时生成的单词根本不切合图像;另一方面,图像和文本之间存在巨大的语义鸿沟,难以建立它们之间的跨模态语义一致性本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视觉概念词关联结构化建模的图像描述方法,其特征在于,通过图像描述模型对输入的图像,生成描述语句,所述图像描述模型的训练过程,包括以下步骤:步骤一,准备训练数据集,训练数据集中包括若干图像,以及图像对应的单词标签;步骤二,图像特征提取和编码:定义训练数据集中的图像为图像I,将图像I进行图像编码,得到初步图像特征,然后将初步图像特征输入若干个Transformer编码器中进一步编码,取最后一个Transformer编码器的输出作为视觉特征;步骤三,视觉概念预测任务:随机初始化一组语义向量,将视觉特征和语义向量一起送入若干个Transformer解码器,将最后一个Transformer解码器的输出作为视觉语义特征,则预测的视觉概念词,其中,代表多层感知预测网络;步骤四,视觉概念关联结构化建模:为视觉概念词构造图及相应的邻接矩阵,利用图卷积网络探索视觉概念词之间的潜在关系,取图卷积网络最后一层的输出作为结构化视觉语义概念词特征;步骤五,描述语句生成任务:以视觉特征和结构化视觉语义概念词特征作为标准Transformer解码器的输入,按顺序生成描述语句;步骤六,联合优化:定义所述图像描述模型的总体损失函数L:;其中为视觉概念预测任务的损失函数,为描述语句生成任务的损失函数;步骤七,根据所述总体损失函数L训练所述图像描述模型。2.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤二具体包括:步骤二A,通过图像描述模型的视觉特征提取器将所述图像I进行图像编码,得到初步特征编码:;其中,代表所述图像的初步特征编码,代表视觉特征提取器;步骤二B,将所述初步特征编码输入若干个Transformer编码器中编码,取最后一个Transformer编码器输出的特征编码作为视觉特征:;其中,表示Transformer编码器的编号,表示第个Transformer编码器输出的图像的特征编码,为层归一化运算,为Transformer的多头注意力机制操作:;其中,Q、K、V分别代表多头注意力机制中的查询值、键值和真值,和分别是Q、K、V对应的可学习权值矩阵,表示可学习权值矩阵的列数,表示激活函数,T
表示转置。3.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤三具体包括:步骤三A,随机初始化一组语义向量;步骤三B,将所述视觉特征和所述语义向量一起输入若干个Transformer解码器,通过自注意力机制深度编码,输出语义特征,取最后一个Transformer解码器的输出作为视觉语义特征,Transformer解码器的输出计算如下:;;其中,表示Transformer解码器的编号,表示第个Transformer解码器的输出,是Transformer解码器初始的查询值,为层归一化运算,为Transformer的多头注意力机制操作;步骤三C,得到预测的视觉概念词:;其中,表示多层感知预...

【专利技术属性】
技术研发人员:张勇东毛震东张驰王朋喆陈伟东宋彦王婷
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1