一种语义引导的基于transformer的部分非自回归视频描述生成方法技术

技术编号：37528215 阅读：15 留言：0更新日期：2023-05-12 15:53

本申请公开了一种语义引导的基于transformer的部分非自回归视频描述生成方法。所述方法将输入视频分割为片段，获取视觉特征后送入基于transformer的视频描述模型，通过部分非自回归的方式，即自回归生成组成描述语句词组中的单词，非自回归生成组成描述语句的词组。为适应视频中对象动作不明显的应用场景，生成更加准确的描述语句，本申请在生成语句描述之前，加入语义引导方法，即利用多标签分类方法，通过视频视觉特征获取能够代表视频内容的重要词汇，为生成描述提供指导作用。与现有视频描述方法相比，该方法能够更加快速的生成清晰准确的描述语句，能够更好的适应实际场景中的应用。际场景中的应用。际场景中的应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义引导的基于transformer的部分非自回归视频描述生成方法

[0001]本申请涉及自然语言处理领域以及计算机视觉领域。具体的是一种通过构建基于transformer的视频描述模型，在语义信息的引导下，将输入视频通过部分并行生成的方式更加快速准确的转化为描述语言的方法。

技术介绍

[0002]随着互联网和各种记录与存储设备的发展，产生了大量的视频数据，但难以通过人工观看的方式对视频信息进行获取，造成了大量信息资源的浪费。视频描述作为一种跨模态数据转换技术，即通过计算机构建模型，将视频转化为描述语言。通过该技术能够将大量视频数据转换为清晰简洁的描述语句，为后续对数据进行整理和分析提供便利。
[0003]目前主流的视频描述方法，受机器翻译的启发，通常采用编码解码的方式生成视频描述。首先，利用基于2DCNN或3DCNN的特征提取网络，获取视频特征向量；然后，将视频特征向量送入卷积神经网络循环神经网络或是transformer对视频特征进行编码，以获取具有上下文特征的视觉特征；最终，将编码后的视觉特征送入基于循环神经网络或transformer的解码器，生成描述语句。这些现有的视频描述方法，通常采用自回归的方式生成视频描述，即将语句中已生成的词语作为生成后续词语的依据，该类型的生成方法推理速度较为缓慢，难以达到实际需求中的推理速度需求，且基于自回归方式生成的语句，后续与描述生成已受到已生成描述错误累积的影响，使得后续生成描述会由于前期生成单词的错误总体走向错误的方向。
[0004]受非自回归机器翻译...

【技术保护点】

【技术特征摘要】
1.一种语义引导的基于transformer的部分非自回归视频描述生成方法，其特征在于，包括如下所述内容：获取视频数据，将其按照每隔15帧采样一帧的间隔采样为视频帧，将视频帧送入在ImageNet数据集上预训练的2DCNN网络获取图像特征，将以同样间隔划分的视频帧集合送入在Kinetics数据集上预训练的3DCNN网络获取运动特征，然后将相应视频片段所对应的视频图像特征和运动特征进行拼接，获取视频特征V；获取将拼接后的视频特征V，将其进行均值池化为一维向量后，送入基于多层感知机(MLP)的多标签分类网络中，获取关键词w
kw
信息；w
kw
＝argmax
ω∈keyword
p
θ
(ω|V)p
θ
(ω|V)＝softmax(W
MLP
(V))其中W
MLP
为MLP网络的可训练权重参数，输入的视频特征送入MLP后经过softmax后转化为500维向量，其中每一维度代表该维度对应关键词在该视频中出现的概率，最终将获取的概率较高的5个词汇与keyword词嵌入矩阵相乘获取相应的词语和与词语对应的词嵌入向量；获取将拼接后的视频特征V，将其作为transformer编码的输入，通过多头注意获取视频片段之间的关联，获取包含上下文特征的视觉特征；获取将拼接后的视频特征V，将其与关键词信息w
kw
作为t...

【专利技术属性】
技术研发人员：刘瑞军，张跃，张佳玉，王晓川，
申请(专利权)人：北京工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人