当前位置: 首页 > 专利查询>三江学院专利>正文

一种基于语义信息感知的视频描述生成方法技术

技术编号:39644752 阅读:11 留言:0更新日期:2023-12-09 11:12
本发明专利技术公开了一种基于语义信息感知的视频描述生成方法,首先,提取视频中的对象特征

【技术实现步骤摘要】
一种基于语义信息感知的视频描述生成方法


[0001]本专利技术属于计算机视觉和视频理解领域,涉及一种基于语义信息感知的视频描述生成方法


技术介绍

[0002]视频描述生成旨在对给定的一段输入视频自动生成一句对应的文本来概述视频中发生的事件

它需要准确的识别出视频中出现的关键实体及事件,并且使用符合人类习惯的语言方式将其描述出来

现有的方法忽视了语义信息在描述中的作用,这可能导致模型生成的描述忽略了部分重要语义

此外,现有的方法大多使用在采样帧上提取的特征作为视频的表示,这使得特征中含有大量的冗余信息干扰模型的效果

而且现有的方法忽略了高层语义之间的重要关系,导致最后的融合特征并不能很好的表现出视频信息


技术实现思路

[0003]本专利技术的目的是为了提供一种基于语义信息感知的视频描述生成方法,充分利用了视频中的语义信息,使得生成的描述更加关注关键语义

[0004]为解决以上技术问题,本专利技术的技术方案为:一种基于语义信息感知的视频描述生成方法,包括:
[0005]步骤1:特征提取:提取视频中的对象特征

动态特征及外观特征;
[0006]步骤2:语义增强:基于提取的特征通过
DETR

BiLSTM
进行语义信息的强化,得到视频关键实体及谓词,并且生成对应的语义词特征;
[0007]步骤3:语义融合:利用交叉解码的
Transformer
网络进行特征融合,得到整体视频的融合特征;
[0008]步骤4:描述生成:通过打分机制对语义词汇进行打分,选择得分最高的语义词汇引导
LSTM
进行解码,生成视频描述

[0009]进一步地,步骤1包括:
[0010]步骤
1.1
:对视频进行均匀的帧采样,得到视频的帧序列用
X

{x1,x2,

,x
N
}
表示,其中
N
为采样的帧数目,
x
N
表示第
N
帧的视频帧;
[0011]步骤
1.2
:使用
2D
特征提取网络对采样到的视频帧提取其外观特征
V
c
,提取到的外观特征包含了视频的背景和环境信息;
[0012]步骤
1.3
:将采样帧的前后8帧作为一个片段并使用
3D
特征提取网络来提取视频的动态特征
m
i
表示第
i
个动态特征;提取到的动态特征包含了视频的动作和时序交互;步骤
1.4
:使用目标检测网络对采样到的视频帧提取视频的对象特征
V
o
,对象特征包含目标信息

[0013]进一步地,步骤2包括:
[0014]步骤
2.1
:基于对象特征

动态特征及外观特征通过
Dert
网络得到视频的关键实体特征
O

[0015]步骤
2.2
:基于视频动态特征
m
i
和关键实体特征
O
通过
SA

BiLSTM
得到视频谓词相关的动态特征
A
即谓词特征

[0016]进一步地,步骤
2.1
包括:
[0017]步骤
2.1.1
:通过
Dert
编码器将输入的对象特征
V
o
映射为目标的全局表示
V
o

,学习到对象之间的长距离依赖;
[0018]步骤
2.1.2
:将外观特征
V
c
和动态特征
V
m
进行拼接,通过
BiLSTM
进行编码得到序列特征间上下文关系的隐藏状态
C

[0019]步骤
2.1.3
:对隐藏状态
C
进行最大值池化,得到视觉信息表示
v

[0020]步骤
2.1.4
:将编码后的目标全局表示
V
o

,一组随机生成的关键实体查询向量和
k
个相同的视频视觉信息
{v}
×
k
输入到
Dert
解码器中,解码出视频特定的关键实体特征
O。
[0021]进一步地,步骤
2.2
包括:
[0022]步骤
2.2.1
:利用注意力机制将动态特征
m
i
整合进关键实体特征中,计算出一个动态的实体特征
[0023]步骤
2.2.2
:将动态的实体特征和原本的动态特征
m
i
进行拼接,使用
BiLSTM
进行编码,学习序列上下文信息之间的关联,得到谓词相关的动态特征
A。
[0024]进一步地,所述步骤
2.1、2.2
中,在得到实体特征及谓词特征后,通过一个全连接层将关键实体的特征向量
O、
谓词特征
A
分别投射到语言的语义空间得到实体词向量
E、
谓词词向量
p。
[0025]进一步地,步骤3包括:
[0026]步骤
3.1
:利用
Transformer
编码器对输入的关键实体特征
O
进行编码,将其映射为关键实体的全局表示0′

[0027]步骤
3.2
:使用多头注意力机制,分别将外观特征和谓词相关的动态特征作为多头注意力的
Q

K、V
,以学习静态和动态信息之间的交叉表示特征;其中,
Q

K

V
指多头注意力的不同输入,即下面式子括号中的不同位置的参数;将外观特征和谓词相关的动态特征作为多头注意力的
Q

K、V
,分别得到两个不同层面的特征:
[0028]context2D

MutilheadAttention(V
c

A

A)
[0029]context3D

MutilheadAttention(A

V
c

V
c
)...

【技术保护点】

【技术特征摘要】
1.
一种基于语义信息感知的视频描述生成方法,其特征在于:包括步骤1:特征提取:提取视频中的对象特征

动态特征及外观特征;步骤2:语义增强:基于提取的特征通过
DETR

BiLSTM
进行语义信息的强化,得到视频关键实体及谓词,并且生成对应的语义词特征;步骤3:语义融合:利用交叉解码的
Transformer
网络进行特征融合,得到整体视频的融合特征;步骤4:描述生成:通过打分机制对语义词汇进行打分,选择得分最高的语义词汇引导
LSTM
进行解码,生成视频描述
。2.
根据权利要求1所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤1包括:步骤
1.1
:对视频进行均匀的帧采样,得到视频的帧序列用
X

{x1,x2,

,x
N
}
表示,其中
N
为采样的帧数目,
x
N
表示第
N
帧的视频帧;步骤
1.2
:使用
2D
特征提取网络对采样到的视频帧提取其外观特征
V
c
,提取到的外观特征包含了视频的背景和环境信息;步骤
1.3
:将采样帧的前后8帧作为一个片段并使用
3D
特征提取网络来提取视频的动态特征
m
i
表示第
i
个动态特征;提取到的动态特征包含了视频的动作和时序交互;步骤
1.4
:使用目标检测网络对采样到的视频帧提取视频的对象特征
V
o
,对象特征包含目标信息
。3.
根据权利要求1所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤2包括:步骤
2.1
:基于对象特征

动态特征及外观特征通过
Dert
网络得到视频的关键实体特征
O
;步骤
2.2
:基于视频动态特征
m
i
和关键实体特征
O
通过
SA

BiLSTM
得到视频谓词相关的动态特征
A
即谓词特征
。4.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤
2.1
包括:步骤
2.1.1
:通过
Dert
编码器将输入的对象特征
V
o
映射为目标的全局表示
V
o

,学习到对象之间的长距离依赖;步骤
2.1.2
:将外观特征
V
c
和动态特征
V
m
进行拼接,通过
BiLSTM
进行编码得到序列特征间上下文关系的隐藏状态
C
;步骤
2.1.3
:对隐藏状态
C
进行最大值池化,得到视觉信息表示
v
;步骤
2.1.4
:将编码后的目标全局表示
V
o

,一组随机生成的关键实体查询向量和
k
个相同的视频视觉信息
{v}
×
k
输入到
Dert
解码器中,解码出视频特定的关键实体特征
O。5.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:步骤
2.2
包括:步骤
2.2.1
:利用注意力机制将动态特征
m
i
整合进关键实体特征中,计算出一个动态的实体特征步骤
2.2.2
:将动态的实体特征和原本的动态特征
m
i
进行拼接,使用
BiLSTM
进行编
码,学习序列上下文信息之间的关联,得到谓词相关的动态特征
A。6.
根据权利要求3所述的基于语义信息感知的视频描述生成方法,其特征在于:所述步骤
2.1、2.2
中,在得到实体特征及谓词特征后,通过一个全连接层将关键实体的特征向量
O、
谓词特征

【专利技术属性】
技术研发人员:林兆骥石佳豪姚莉
申请(专利权)人:三江学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1