一种语义引导的基于transformer的部分非自回归视频描述生成方法技术

技术编号:37528215 阅读:15 留言:0更新日期:2023-05-12 15:53
本申请公开了一种语义引导的基于transformer的部分非自回归视频描述生成方法。所述方法将输入视频分割为片段,获取视觉特征后送入基于transformer的视频描述模型,通过部分非自回归的方式,即自回归生成组成描述语句词组中的单词,非自回归生成组成描述语句的词组。为适应视频中对象动作不明显的应用场景,生成更加准确的描述语句,本申请在生成语句描述之前,加入语义引导方法,即利用多标签分类方法,通过视频视觉特征获取能够代表视频内容的重要词汇,为生成描述提供指导作用。与现有视频描述方法相比,该方法能够更加快速的生成清晰准确的描述语句,能够更好的适应实际场景中的应用。际场景中的应用。际场景中的应用。

【技术实现步骤摘要】
一种语义引导的基于transformer的部分非自回归视频描述生成方法


[0001]本申请涉及自然语言处理领域以及计算机视觉领域。具体的是一种通过构建基于transformer的视频描述模型,在语义信息的引导下,将输入视频通过部分并行生成的方式更加快速准确的转化为描述语言的方法。

技术介绍

[0002]随着互联网和各种记录与存储设备的发展,产生了大量的视频数据,但难以通过人工观看的方式对视频信息进行获取,造成了大量信息资源的浪费。视频描述作为一种跨模态数据转换技术,即通过计算机构建模型,将视频转化为描述语言。通过该技术能够将大量视频数据转换为清晰简洁的描述语句,为后续对数据进行整理和分析提供便利。
[0003]目前主流的视频描述方法,受机器翻译的启发,通常采用编码解码的方式生成视频描述。首先,利用基于2DCNN或3DCNN的特征提取网络,获取视频特征向量;然后,将视频特征向量送入卷积神经网络循环神经网络或是transformer对视频特征进行编码,以获取具有上下文特征的视觉特征;最终,将编码后的视觉特征送入基于循环神经网络或transformer的解码器,生成描述语句。这些现有的视频描述方法,通常采用自回归的方式生成视频描述,即将语句中已生成的词语作为生成后续词语的依据,该类型的生成方法推理速度较为缓慢,难以达到实际需求中的推理速度需求,且基于自回归方式生成的语句,后续与描述生成已受到已生成描述错误累积的影响,使得后续生成描述会由于前期生成单词的错误总体走向错误的方向。
[0004]受非自回归机器翻译的启发,本申请将非自回归语句生成方式运用到视频描述领域,使得语句中的词语能够并行生成加快推理速度。为保证推理的准确性并使得模型能够生成长度灵活的描述语句,本专利将自回归生成与非自回归生成的方式相结合,即自回归生成组成语句词组中的单词,并通过非自回归的方式生成组成语句的词组,对生成词组进行重复词组删除操作后,最终将词组进行拼接,形成完整描述语句。为提升生成描述语言的准确性,本申请在解码描述语句之前加入了语义引导模块,通过从视频特征中获取关键词信息,为描述生成提供指引。

技术实现思路

[0005]本申请的目的是提供一种基于transformer的视频描述方法,使得模型能够基于输入视频并行生成描述语句中的词语,并加入了用于语义引导的关键词信息,最终更加快速且准确的生成描述语句。由于视频描述语句不同位置词汇的生成通常基于不同的视频帧或视频片段,本申请将视频特征依照时间进行划分为片段特征,分别送入编码器,使得解码器能够依照输入特征并行解码出生成词语序列,最终获取完整输出描述语句。特别的,本申请在文本生成之前,加入了运动特征引导模块,为生成描述中的运动行为提供引导,以提升最终生成描述的准确性。
[0006]步骤1、将输入视频分割为视频帧,将视频帧送入在ImageNet数据集上预训练的2DCNN网络获取图像特征,将以相应间隔划分的视频帧集合送入在Kinetics数据集上预训练的3DCNN网络获取运动特征,然后将相应视频片段所对应的视频图像特征和运动特征进行拼接,获取视频特征;
[0007]步骤2、将视频特征送入基于多层感知机(MLP)的多标签分类网络中,获取针对视频片段的关键词信息,为后续生成描述提供指导;
[0008]步骤3、将视频片段特征作为transformer编码的输入,通过多头注意获取视频片段之间的关联,获取包含上下文特征的视觉特征;
[0009]步骤4、将视觉特征和关键词信息作为transformer解码的输入,在每个时间步中,解码器并行生成每个待生成词组中的一个词语,使得词组间能够进行并行生成,而词组内为顺序生成;
[0010]步骤5、对于解码器生成的词汇进行处理,以删除重复词语,最终将其连接为完整语句,作为输入视频的视频描述。
附图说明
[0011]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
[0012]图1是本申请方法的总体流程图;
[0013]图2是本方案的具体网络图。
具体实施方式
[0014]由
技术介绍
可以看出,现有视频描述方法通常采用自回归的方式生成视频描述,即描述只能进行顺序生成,且后续生成词汇会受到先前生成词汇的影响,该类型方法生成描述较为缓慢,难以适应实际场景中的应用。
[0015]本申请中将视频描述视为由不同时刻的视频片段生成的文本描述,提取视频帧后通过预训练的卷积神经网路获取视频特征向量;将视频特征向量送入基于transformer的编码器获取经过多头注意机制加权后的视觉特征;将视频特征向量送入基于多层感知机的语义检测网络,获取语义特征;将语义特征与视觉特征进行融合后,送入基于改进transformer的解码器,使其能够通过部分非自回归的方式生成视频描述。
[0016]具体的:
[0017]步骤(1):将输入视频分割为视频帧,将视频帧送入在ImageNet数据集上预训练的2DCNN网络获取图像特征,将以相应间隔划分的视频帧集合送入在Kinetics数据集上预训练的3DCNN网络获取运动特征;
[0018](1

1)对输入视频进行分帧处理,并进行均匀采样获取30个视频帧以及以连续的16帧作为一个集合的连续视频帧片段;
[0019](1

2)将视频帧送入在ImageNet数据集上预训练的ResNet

101网络中获取视频图像特征V
i
={v
1i
,v
2i


v
ki
},将视频帧片段送入在Kinetics数据集上预训练的3D

ResNext,
获取视频运动特征V
m
={v
1m
,v
2m


v
km
};
[0020](1

3)将相应视频片段所对应的视频图像特征和运动特征进行拼接,获取视频特征V={v1,v2,

v
k
};
[0021]步骤(2):将视频特征送入基于多层感知机(MLP)的多标签分类网络中,获取针对视频片段的关键词信息,为后续生成描述提供指导;
[0022](2

1)数据准备:
[0023]由于描述语句中的名词以及动词通常与视频中的视觉特征相关性较高,是视频中携带的较为重要的信息。本申请利用NLTK模型中的词性标注模块,对数据集中视频描述ground truth描述语句进行处理,筛选出其中词性为名词和动词的词汇,为相应视频构建引导语义ground truth。
[0024]具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义引导的基于transformer的部分非自回归视频描述生成方法,其特征在于,包括如下所述内容:获取视频数据,将其按照每隔15帧采样一帧的间隔采样为视频帧,将视频帧送入在ImageNet数据集上预训练的2DCNN网络获取图像特征,将以同样间隔划分的视频帧集合送入在Kinetics数据集上预训练的3DCNN网络获取运动特征,然后将相应视频片段所对应的视频图像特征和运动特征进行拼接,获取视频特征V;获取将拼接后的视频特征V,将其进行均值池化为一维向量后,送入基于多层感知机(MLP)的多标签分类网络中,获取关键词w
kw
信息;w
kw
=argmax
ω∈keyword
p
θ
(ω|V)p
θ
(ω|V)=softmax(W
MLP
(V))其中W
MLP
为MLP网络的可训练权重参数,输入的视频特征送入MLP后经过softmax后转化为500维向量,其中每一维度代表该维度对应关键词在该视频中出现的概率,最终将获取的概率较高的5个词汇与keyword词嵌入矩阵相乘获取相应的词语和与词语对应的词嵌入向量;获取将拼接后的视频特征V,将其作为transformer编码的输入,通过多头注意获取视频片段之间的关联,获取包含上下文特征的视觉特征;获取将拼接后的视频特征V,将其与关键词信息w
kw
作为t...

【专利技术属性】
技术研发人员:刘瑞军张跃张佳玉王晓川
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1