【技术实现步骤摘要】
基于视觉情感驱动的视频情感描述模型的生成方法及应用
[0001]本专利技术属于多模态领域,涉及到计算机视觉、自然语言处理、人工智能等技术,具体地说是一种基于视觉情感驱动的视频情感描述模型的生成方法。
技术介绍
[0002]用自然语言以更人性化的方式有效地概括和描述视频内容,是多模态内容理解领域的关键课题之一。尽管近年来取得了良好的进展,但现有的工作通常忽略了视频描述中的情感因素,从而使生成的句子单一且枯燥。情感在人类的沟通中起到了举足轻重的作用。随着图片或短视频在社交网络上的流行,视觉情感分析的研究受到越来越多的关注。视频情感描述是一项新兴的任务,尚处于起步阶段。目前使用情感线索增强视频描述的工作主要有两种:一种是风格化描述,旨在生成特定语言风格的描述,如浪漫、骄傲和羞耻;另一种是覆盖了更全面的情感范畴的视频情感描述。本专利技术属于后者。
[0003]在视觉情感分析领域,最近的代表性工作主要有:1)同时将情感线索从图像语义、美学和低级特征中分离出来,预测每张图像的主要情感;2)从特定的视觉元素(如颜色、物体和面孔)中识别情感;3)将人的面部表情与整个图像中的全局场景相结合进行情感识别。然而,这些视觉情感分析方法致力于预测单一的主导情感,忽略了情感的复杂性和主观性。并且,上述工作关注的都是在图片上的视觉情感识别,基于视频的视觉情感分析还没有被充分探索。
技术实现思路
[0004]本专利技术为了克服现有技术的不足之处,提出一种基于视觉情感驱动的视频情感描述模型的生成方法及应用,以期能够自适应的获取 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉情感驱动的视频情感描述模型的生成方法,其特征是按如下步骤进行:步骤1、单词表的构建:获取视频情感描述的数据集Set以及情感词典Voc
E
,其中,所述数据集set中的任意一个视频记为Q,且视频Q在所述数据集Set中对应的情感描述句子为C;利用所述数据集Set中所有情感描述句子的所有单词以及所述情感词典Voc
E
中的所有单词构建单词表Voc;步骤2、构建视频情感描述模型,包括:视频特征提取模块、视频情感特征获取模块、上下文聚合器、基于LSTM网络的解码器;步骤2.1、所述视频特征提取模块获取所述视频Q的帧级视觉特征其中,v
n
表示第n个帧级视觉特征,N表示所述视频Q的帧数量;步骤2.2、所述视频情感特征获取模块获取视频情感特征e
C
:步骤2.2.1、利用式(1)将所述视频Q的帧级视觉特征V聚合为全局视频特征v
A
;步骤2.2.2、利用文本特征提取器获取情感词典Voc
E
中第i个情感词的嵌入向量e
i
,并根据式(2)获取所述视频Q在第i个情感词上的概率值q
i
;式(2)中,u
q
,u
q
,H
q
,b
q
均为所述视频情感特征获取模块中的学习参数;步骤2.2.3、对情感词典Voc
E
中的所有情感词执行步骤2.2,得到所述视频Q在情感词典Voc
E
上的概率分布q=(q1,
…
,q
i
,
…
,q
I
),其中,I为情感词典Voc
E
包含的词数量;步骤2.2.4、对概率分布q中的元素进行降序排序,得到排序后的概率分布q
′
;设置参数K,且1≤K≤I,选取排序后的概率分布q
′
的前K个概率值构建候选概率集合{q
′1,
…
,q
′
k
,
…
,q
′
K
},获取候选概率集合中每个概率值对应的情感词的嵌入向量构成候选情感词集合{e
′1,
…
,e
′
k
,
…
,e
′
K
},其中,e
′
k
和q
′
k
分别表示第k个候选情感词的嵌入向量和第k个候选概率;从而根据式(3)得到情感向量e
C
;步骤2.3、上下文聚合器的处理:步骤2.3.1、定义当前时刻为t,并初始化t=0;步骤2.3.2、利用式(4)得到所述视频Q的第n个帧级视觉特征v
n
与基于LSTM网络的解码器在t
‑
1时刻的隐藏状态h
t
‑1的注意力权重α
nt
;并利用式(5)得到t时刻的视频上下文向量;并利用式(5)得到t时刻的视频上下文向量;并利用式(5)得到t时刻的视频上下文向量式(4)中,u
α
,U
α
,H
α
,b
α
均为所述上下文聚合器中获取针对视频上下文向量的学习参数;tanh表示双曲正切函数;softmax表示Softmax函数;表示学习参数u
α
的转置;步骤2.3.3、利用所述文本特征提取器获取t时刻已生成单词的嵌入矩阵
其中,y
j
表示第j个已生成单词,w
j
是第j个已生成单词y
j
的嵌入向量;利用式(6)得到第j个已生成单词y
j
的嵌入向量w
j
与基于LSTM网络的解码器在t
‑
1时刻的隐藏状态h
t
‑1的注意力权重β
jt
;并利用式(7)得到t时刻的文本上下文向量c
t
;;式(6)中,u
β
,U
β
,H
β
,b
β
均为所述上下文聚合器中针对获取文本上下文向量的学习参数;步骤2.3.4、利用式(8)获取所述视频Q的第n个帧级视觉特征v
n
与第j个已生成单词y
j
的嵌入向量w
j
的语义相关性从而得到相关性矩阵从而得到相关性矩阵式(8)中,u
r
,U
r...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。