【技术实现步骤摘要】
一种基于语义信息感知的视频描述生成方法
[0001]本专利技术属于计算机视觉和视频理解领域,涉及一种基于语义信息感知的视频描述生成方法
。
技术介绍
[0002]视频描述生成旨在对给定的一段输入视频自动生成一句对应的文本来概述视频中发生的事件
。
它需要准确的识别出视频中出现的关键实体及事件,并且使用符合人类习惯的语言方式将其描述出来
。
现有的方法忽视了语义信息在描述中的作用,这可能导致模型生成的描述忽略了部分重要语义
。
此外,现有的方法大多使用在采样帧上提取的特征作为视频的表示,这使得特征中含有大量的冗余信息干扰模型的效果
。
而且现有的方法忽略了高层语义之间的重要关系,导致最后的融合特征并不能很好的表现出视频信息
。
技术实现思路
[0003]本专利技术的目的是为了提供一种基于语义信息感知的视频描述生成方法,充分利用了视频中的语义信息,使得生成的描述更加关注关键语义
。
[0004]为解决以上技术问题,本专利技术的技术方案为:一种基于语义信息感知的视频描述生成方法,包括:
[0005]步骤1:特征提取:提取视频中的对象特征
、
动态特征及外观特征;
[0006]步骤2:语义增强:基于提取的特征通过
DETR
及
BiLSTM
进行语义信息的强化,得到视频关键实体及谓词,并且生成对应的语义词特征;
[0007]步骤3:语义融合:利
【技术保护点】
【技术特征摘要】
1.
一种基于语义信息感知的视频描述生成方法,其特征在于:包括步骤1:特征提取:提取视频中的对象特征
、
动态特征及外观特征;步骤2:语义增强:基于提取的特征通过
DETR
及
BiLSTM
进行语义信息的强化,得到视频关键实体及谓词,并且生成对应的语义词特征;步骤3:语义融合:利用交叉解码的
Transformer
网络进行特征融合,得到整体视频的融合特征;步骤4:描述生成:通过打分机制对语义词汇进行打分,选择得分最高的语义词汇引导
LSTM
进行解码,生成视频描述
。2.
根据权利要求1所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤1包括:步骤
1.1
:对视频进行均匀的帧采样,得到视频的帧序列用
X
=
{x1,x2,
…
,x
N
}
表示,其中
N
为采样的帧数目,
x
N
表示第
N
帧的视频帧;步骤
1.2
:使用
2D
特征提取网络对采样到的视频帧提取其外观特征
V
c
,提取到的外观特征包含了视频的背景和环境信息;步骤
1.3
:将采样帧的前后8帧作为一个片段并使用
3D
特征提取网络来提取视频的动态特征
m
i
表示第
i
个动态特征;提取到的动态特征包含了视频的动作和时序交互;步骤
1.4
:使用目标检测网络对采样到的视频帧提取视频的对象特征
V
o
,对象特征包含目标信息
。3.
根据权利要求1所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤2包括:步骤
2.1
:基于对象特征
、
动态特征及外观特征通过
Dert
网络得到视频的关键实体特征
O
;步骤
2.2
:基于视频动态特征
m
i
和关键实体特征
O
通过
SA
‑
BiLSTM
得到视频谓词相关的动态特征
A
即谓词特征
。4.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤
2.1
包括:步骤
2.1.1
:通过
Dert
编码器将输入的对象特征
V
o
映射为目标的全局表示
V
o
′
,学习到对象之间的长距离依赖;步骤
2.1.2
:将外观特征
V
c
和动态特征
V
m
进行拼接,通过
BiLSTM
进行编码得到序列特征间上下文关系的隐藏状态
C
;步骤
2.1.3
:对隐藏状态
C
进行最大值池化,得到视觉信息表示
v
;步骤
2.1.4
:将编码后的目标全局表示
V
o
′
,一组随机生成的关键实体查询向量和
k
个相同的视频视觉信息
{v}
×
k
输入到
Dert
解码器中,解码出视频特定的关键实体特征
O。5.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤
2.2
包括:步骤
2.2.1
:利用注意力机制将动态特征
m
i
整合进关键实体特征中,计算出一个动态的实体特征步骤
2.2.2
:将动态的实体特征和原本的动态特征
m
i
进行拼接,使用
BiLSTM
进行编
码,学习序列上下文信息之间的关联,得到谓词相关的动态特征
A。6.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:所述步骤
2.1、2.2
中,在得到实体特征及谓词特征后,通过一个全连接层将关键实体的特征向量
O、
谓词特征
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。