一种基于层次化情感特征编码的视频情感描述方法技术

技术编号：39898856 阅读：11 留言：0更新日期：2023-12-30 13:12

本发明专利技术公开了一种基于层次化情感特征编码的视频情感描述方法，其步骤包括：1视频编码；2层次化情感特征编码；3基于多模态上下文的文本生成；4在视频情感描述数据集上的模型参数优化

全部详细技术资料下载

【技术实现步骤摘要】
一种基于层次化情感特征编码的视频情感描述方法

[0001]本专利技术属于人工智能领域，涉及到计算机视觉
、
情感计算和自然语言处理等技术，具体地说是一种基于层次化情感特征编码的视频情感描述方法
。

技术介绍

[0002]在过去的几十年中，人工智能和计算机视觉领域的研究人员一直在努力开发算法和模型，以从图像和视频中提取有用的信息，包括情感信息
。
情感描述是计算机视觉领域的一个重要研究方向
。
情感描述可以分为两个主要方向：基于文本的情感描述和基于视觉特征的情感描述
。
基于文本的情感描述是指利用自然语言处理技术，对文本中的情感进行分析和描述
。
基于视觉特征的情感描述则是利用计算机视觉技术，从图像和视频中提取情感特征，并进行情感描述
。
本专利技术属于后者
。
[0003]为了提高视频情感分析的准确性，已有的一些研究工作尝试了不同的方法，例如提取更丰富的视觉特征，或者对不同的情绪类别进行建模
。
另外一些研究工作采用了两阶段训练的策略，即先利用情感标签进行视频情感分类，然后根据分类结果生成视频描述
。
然而，这种方法存在一些缺陷，例如情感分类和描述生成两个子任务之间缺乏有效的交互和融合，以及所使用的情感类别过于简单和粗糙，如积极或消极
。
还有一些工作利用注意力机制来强化情感语义的表示和传递，但是由于缺乏对情感的定量分析，容易受到训练语料库中高频常见词...

【技术保护点】

【技术特征摘要】
1.
一种基于层次化情感特征编码的视频情感描述方法，其特征在于，是按照如下步骤进行：步骤
1、
视频编码：从视频情感描述数据集中获取任意一个视频
V
及其情感描述，并从
V
中均匀采样出
N
个视频帧其中，
f
i
为第
i
个采样帧；利用预训练的
CLIP
视觉编码器提取
N
个采样帧的特征，得到所述视频
V
的视觉特征其中，
v
i
为所述第
i
个采样帧
f
i
的特征；步骤
2、
层次化情感特征编码：步骤
2.1、
获取情感类别集合
E
c
＝
{x1,
…
,x
c
,
…
,x
C
}
，其中，
x
c
表示第
c
种情感类别，
C
为情感类别的总数；获取情感类别集合
E
c
中每个情感类别对应的若干情感词构成情感词集合
E
w
＝
{X1,
…
,X
c
,
…
,X
C
}
；其中，
X
c
表示第
c
种情感类别对应的情感词集合，且
x
c,j
为
X
c
中的第
j
个情感词，
M
c
为
X
c
中的情感词总数；步骤
2.2、
通过预训练的
GloVe
网络获取情感词集合
E
w
中每个情感词的文本特征中每个情感词的文本特征其中，
e
m
为第
m
个情感词
x
m
的文本特征；
M
表示情感词集合
E
w
中的情感词总数，且步骤
2.3、
将文本特征
F
e
作为
Transformer
网络的键
key
和值
value
，将视频特征
F
v
作为
Transformer
网络的查询
query
，从而利用式
(1)
得到
Transformer
网络输出的融合特征
F
e
'
；
F
e
'
＝
Transformer([F
v
,F
e
,F
e
]) (1)
将融合特征
F
e
'
依次输入到一个平均池化层和一个全连接层从而利用式
(2)
得到视频
V
在情感类别集合
E
c
上的概率分布
P
c
；式
(2)
中，全连接层的输出维度为
C
；步骤
2.4、
零初始化一个掩码矩阵其中，
g
i,m
表示掩码矩阵
G
中第
i
行第
m
列的元素值；定义一个参数
K
；获取概率分布
P
c
中最大的
K
个值对应的情感类别，从而得到相关情感类别集合
E
′
c
；获取相关情感类别集合
E
′
c
对应的相关情感词集合
E
′
w
；如果情感词集合
E
w
中的第
m
个情感词
x
m
在相关情感词集合
E
′
w
中，则令掩码矩阵
G
中的否则，令步骤
2.5、
将文本特征
F
e
作为另一个
Transformer
网络的键
key
和值
value
，将视频特征
F
v
作为另一个
Transformer
网络的查询
query
，将掩码矩阵
G
作为另一个
Transformer
网络的掩码
mask
，从而利用式
(3)
得到另一个
Transformer
输出的情感特征
F
e”；
F
e”＝
Transformer(F
v
,F
e
,F
e
,G) (3)
将情感特征
F
e”依次输入到另一个平均池化层和另一个全连接层利用式
(4)
得到视频
V
在情感词集合
E
w
上的概率分布
P
w
；
式
(4)
中，全连接层的输出维度为
M
；步骤
3、
基于多模态上下文的文本生成：步骤
3.1、
定义当前时刻为
t
，并初始化
t
＝0；步骤
3.2、
利用预训练的
GloVe
网络获取前

【专利技术属性】
技术研发人员：杨勋，宋培培，郭丹，郝艳宾，汪萌，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人