一种基于记忆增强的视频描述生成方法技术

技术编号:39141030 阅读:14 留言:0更新日期:2023-10-23 14:54
本发明专利技术公开了一种基于记忆增强的视频描述生成方法,包括以下步骤:S1、提取原始视频的第一特征信息和第二特征信息,并将第一特征信息和第二特征信息拼接,得到最终视频特征;S2、根据步骤S1中最终视频特征与视觉记忆,利用记忆增强编码器进行编码,得到集合视频上下文信息的视频特征;S3、根据步骤S2中集合视频上下文信息的视频特征与语言记忆,利用记忆增强解码器进行解码,生成视频描述文本;本发明专利技术所提出的一种基于记忆增强的视频描述生成方法,通过加入视觉记忆和语言记忆进入编码器和解码器,能够有效捕获多种隐式外部知识,提高了记忆增强编码器和记忆增强解码器生成文本的能力,从而在多个传统视频描述生成数据集上达到了最佳性能。了最佳性能。了最佳性能。

【技术实现步骤摘要】
一种基于记忆增强的视频描述生成方法


[0001]本专利技术涉及视频描述生成
,具体涉及一种基于记忆增强的视频描述生成方法。

技术介绍

[0002]视频描述生成旨在生成描述视频视觉内容的单词序列,其作为一种快速发展的技术,随着社交媒体上视频数据的爆炸式增长,它受到越来越多的关注。现有的视频描述生成方法大多遵循编码器

解码器框架,利用卷积神经网络作为编码器从源视频中分析视觉语义并提取有用的视觉上下文特征,利用循环神经网络作为解码器依次生成描述。为了提高视频描述生成的性能,近期的研究引入的注意力机制能够选择性地关注相关的视觉内容。最近,基于transformer的架构,由于其强大的多模态对其能力而被广泛关注。
[0003]虽然上述视频描述生成方法已经取得显著的发展,但他们只关注源视频以及其对应句子进行多模态学习。这样限制了现有方法仅从单个输入的视频标题对进行浅层关联,未能有效捕获视频

语言数据集中存在的多种视觉上下文信息和语言线索等隐性外部知识。

技术实现思路

[0004]针对现有技术中的上述不足,本专利技术提供了一种基于记忆增强的视频描述生成方法,旨在利用记忆来存储从多模态数据集中学习到的隐式的外部知识,从而辅助编码器

解码器结构更好的生成视频描述。
[0005]为了达到上述专利技术目的,本专利技术采用的技术方案为:
[0006]一种基于记忆增强的视频描述生成方法,包括以下步骤:
[0007]S1、提取原始视频的第一特征信息和第二特征信息,并将第一特征信息和第二特征信息拼接,得到最终视频特征;
[0008]S2、根据步骤S1中最终视频特征与视觉记忆,利用记忆增强编码器进行编码,得到集合视频上下文信息的视频特征;
[0009]S3、根据步骤S2中集合视频上下文信息的视频特征与语言记忆,利用记忆增强解码器进行解码,生成视频描述文本。
[0010]进一步的,步骤S1具体包括以下步骤:
[0011]S11、利用二维卷积神经网络提取原始视频帧的外观特征,得到原始视频的第一特征信息;
[0012]S12、利用三维卷积神经网络提取原始视频帧的运动特征,得到原始视频的第二特征信息;
[0013]S13、将步骤S11中第一特征信息与步骤S12中第二特征信息进行拼接,得到最终视频特征,即:
[0014]V=[V
a

m
][0015]其中,V表示最终视频特征,V
a
表示第一特征信息,V
m
表示第二特征信息。
[0016]进一步的,步骤S2中所述视觉记忆为与所述最终视频特征维度相同的可学习向量。
[0017]进一步的,步骤S2中所述记忆增强编码器采用Transformer编码器结构,所述Transformer编码器结构依次包括交叉注意力层、归一化层。
[0018]进一步的,步骤S2具体包括以下步骤:
[0019]S21、将视觉记忆输入交叉注意力层,将最终视频特征输入交叉注意力层和归一化层;
[0020]S22、交叉注意力层采用多头注意力机制,根据输入的最终视频特征与视觉记忆,得到最终视频特征与视觉记忆的注意力分数,即:
[0021][0022]其中,A表示最终视频特征与视觉记忆的注意力分数,V表示最终视频特征,W
Q
、W
K
分别表示最终视频特征和视觉记忆的可学习参数,M
v
表示视觉记忆,T表示转置,d表示视觉记忆的维度,softmax(
·
)表示交叉注意力层的归一化函数;
[0023]S23、在交叉注意力层与归一化层之间设置残差连接结构,将交叉注意力层输出的最终视频特征与视觉记忆的注意力分数通过残差连接结构输入归一化层,并利用层归一化将最终视频特征以及最终视频特征与视觉记忆的注意力分数归一化,得到集合视频上下文信息的视频特征,即:
[0024]V
M
=LayerNorm(AM
v
W
V
+)
[0025]其中,V
M
表示集合视频上下文信息的视频特征,W
V
表示视觉记忆的可学习参数,LayerNorm(
·
)表示归一化层的层归一化函数。
[0026]进一步的,步骤S3中所述记忆增强解码器包括依次设置的记忆增强的LSTM、全连接层与softmax层;
[0027]所述记忆增强的LSTM包括依次设置的LSTM
atte
模块、视觉注意力模块、语言感知跨注意力模块与LSTM
lang
模块;
[0028]所述语言感知跨注意力模块包括softmax层和LayerNorm层;
[0029]所述视觉注意力模块包括softmax层。
[0030]进一步的,步骤S3具体包括以下步骤:
[0031]S31、将步骤S1中最终视频特征与步骤S2中集合视频上下文信息的视频特征相加并均值池化,得到集合视频上下文信息的全局特征,即:
[0032][0033]其中,v
i
表示第i帧的最终视频特征,表示第i帧的集合视频上下文信息的视频特征,N表示采样的视频帧总数,V
g
表示集合视频上下文信息的全局特征,

表示相加操作;
[0034]S32、获取LSTM
atte
模块输出的时间步为t的隐藏层特征,即:
[0035][0036]其中,表示LSTM
atte
模块输出的时间步为t的隐藏层特征,表示LSTM
lang
模块输出的时间步为t

1的隐藏层特征,W
e
表示将可学习的单词嵌入映射矩阵,w
t
‑1表示softmax层输出的时间步为t

1时生成的单词,表示LSTM
atte
模块输出的时间步为t

1的隐藏层特征;
[0037]S33、将步骤S32中LSTM
atte
模块输出的时间步为t的隐藏层特征与语言记忆输入语言感知跨注意力模块,得到语言感知跨注意力模块的注意力分数以及集合语言上下文信息的视频特征,即:
[0038][0039][0040]其中,A
l
表示语言感知跨注意力模块的注意力分数,M
l
表示语言记忆,表示语言记忆,分别表示LSTM
atte
模块输出的时间步为t的隐藏层特征和语言记忆的可学习参数,d
l
表示语言记忆的维度,T
M
表示集合语言上下文信息的视频特征,softmax(
·
)表示语言感知跨注意力模块的归一化函数,LayerNorm(
·
)表示语言感知跨注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于记忆增强的视频描述生成方法,其特征在于,包括以下步骤:S1、提取原始视频的第一特征信息和第二特征信息,并将第一特征信息和第二特征信息拼接,得到最终视频特征;S2、根据步骤S1中最终视频特征与视觉记忆,利用记忆增强编码器进行编码,得到集合视频上下文信息的视频特征;S3、根据步骤S2中集合视频上下文信息的视频特征与语言记忆,利用记忆增强解码器进行解码,生成视频描述文本。2.根据权利要求1所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S1具体包括以下步骤:S11、利用二维卷积神经网络提取原始视频帧的外观特征,得到原始视频的第一特征信息;S12、利用三维卷积神经网络提取原始视频帧的运动特征,得到原始视频的第二特征信息;S13、将步骤S11中第一特征信息与步骤S12中第二特征信息进行拼接,得到最终视频特征,即:V=[V
a
;V
m
]其中,V表示最终视频特征,V
a
表示第一特征信息,V
m
表示第二特征信息。3.根据权利要求1所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S2中所述视觉记忆为与所述最终视频特征维度相同的可学习向量。4.根据权利要求1所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S2中所述记忆增强编码器采用Transformer编码器结构,所述Transformer编码器结构依次包括交叉注意力层、归一化层。5.根据权利要求4所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S2具体包括以下步骤:S21、将视觉记忆输入交叉注意力层,将最终视频特征输入交叉注意力层和归一化层;S22、交叉注意力层采用多头注意力机制,根据输入的最终视频特征与视觉记忆,得到最终视频特征与视觉记忆的注意力分数,即:其中,A表示最终视频特征与视觉记忆的注意力分数,V表示最终视频特征,W
Q
、W
K
分别表示最终视频特征和视觉记忆的可学习参数,M
v
表示视觉记忆,T表示转置,d表示视觉记忆的维度,softmax(
·
)表示交叉注意力层的归一化函数;S23、在交叉注意力层与归一化层之间设置残差连接结构,将交叉注意力层输出的最终视频特征与视觉记忆的注意力分数通过残差连接结构输入归一化层,并利用层归一化将最终视频特征以及最终视频特征与视觉记忆的注意力分数归一化,得到集合视频上下文信息的视频特征,即:V
M
=LayerNorm(AM
v
W
V
+V)其中,V
M
表示集合视频上下文信息的视频特征,W
V
表示视觉记忆的可学习参数,
LayerNorm(
·
)表示归一化层的层归一化函数。6.根据权利要求1所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S3中所述记忆增强解码器包括依次设置的记忆增强的LSTM、全连接层与softmax层,所述记忆增强的LSTM包括依次设置的LSTM
atte
模块、视觉注意力模块、语言感知跨注意力模块与LSTM
lang
模块,所述语言感知跨注意力模块包括softmax层和LayerNorm层,所述视觉注意力模块包括softmax层。7.根据权利要求6所述的一种基于记忆增强的视频描述生成方法,其特征在于,步骤S3具体包括以下步骤:S31、将步骤S1中最终视频特征与步骤S2中集合视频上下文信息的视频特征相加并均值池化,得到集合视频上下文信息的全局特征,即:其中,v
i
表示第i帧的最终视频特征,表示第i帧的集合视频上下文信息的视频特征,N表示采样的视频帧总数,V
g
表示集合视频上下文信息的全局特征,表示相加操作;S32、获取LSTM
atte
模块输出的时间步为t的隐藏层特征,即:其中,表示LSTM
atte
模块输出的时间步为t的隐藏层特征,表示LSTM
lang
模块输出的时间步为t

1的隐藏层特征,W
e
表示将可学习的单词嵌入映射矩阵,w
t
‑1表示softmax层输出的时间步为t

1时生成的单词,表示LSTM
atte
模块输出的时间步为t

1的隐藏层特征;S33、将步骤S32中LSTM
atte
模块输出的时间步为t的隐藏层特征与语言记忆输入语言感知跨注意力模块,得到语言感知跨注意力模块的注意力分数以及集合语言上下文信息的视频特征,即:频特征,即:其中,A
l
表示语言感知跨注意力模块的注意力分数,M
l
表示语言记忆,表示语言记忆,分别表示LSTM
atte
模块输出的时间...

【专利技术属性】
技术研发人员:许辉秦一心张浩楠付骏峰李岳铿
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1