【技术实现步骤摘要】
frames for video captioning,”inECCV,2018,pp.358
–
373.
[0010][6]E.Amrani,R.Ben
‑
Ari,D.Rotman,and A.Bronstein,“Noise estimationusing density estimation for self
‑
supervised multimodal learning,”arXivpreprint arXiv:2003.03186,2020.
[0011][7]W.Pei,J.Zhang,X.Wang,L.Ke,X.Shen,and Y.
‑
W.Tai,“Memory
‑
attended recurrent network for video captioning,”inCVPR,2019.
[0012][8]B.Zhao,X.Li,and X.Lu,“Cam
‑
rnn:Co
‑
attention model ...
【技术保护点】
【技术特征摘要】
1.一种基于层级表征网络的视频理解文本生成方法,应用于视频问答任务或视频描述任务,该方法包括以下步骤:A、训练模型A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征V
g
;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征V
a
和目标级视觉特征V
o
;A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征V
g
,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息获得注意力LSTM模型在当前步的隐藏层信息t表示当前步;在首次迭代时,所述由默认初始化方法生成;A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征V
a
和目标级视觉特征V
o
,获得文本级上下文特征动作级上下文特征和目标级上下文特征信息所述语言文本特征其中,表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步;在首次迭代时,所述C由默认初始化方法生成;A6、根据步骤A5获得的上下文特征和基于LSTM语言模型在上一步迭代获得的隐藏层信息获得LSTM语言模型在当前步的隐藏层信息和细胞信息t表示当前步;在首次迭代时,所述由默认初始化方法生成;利用获得的LSTM语言模型在当前步的隐藏层信息生成当前步的单词概率分布P
t
,选择其中最大概率的单词,作为当前步预测的单词;A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。2.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
所述步骤A2包括:A21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为视频帧序列的事件级特征V
g
:其中,表示第i帧的静态特征,N表示视频帧序列的帧数;A22、通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列的动作级视觉特征V
a
和目标级视觉特征V
o
::其中,V
x
为V
a
、V
o
的统一表示,为的统一表示,为的统一表示,x∈{a,o},a代表动作级,o代表目标级;表示第i帧的动作级视觉特征,表示第i帧的目标级视觉表征,表示第i帧的动态特征,表示第i帧的目标特征,N表示视频帧序列的帧数,W
x
是可学习的视觉嵌套参数。3.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A4中,给定:其中,LSTM
att
表示注意力LSTM模型,[;]代表拼接操作,w
t
‑1表示文本嵌套特征,V
g
表示事件级特征,W
d
是可学习的单词嵌套参数,t表示当前步。4.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A5中,给定:Att(k,q)=softmax(AF(k,q))kAtt(k,q)=softmax(AF(k,q))kAtt(k,q)=softmax(AF(k,q))k其中,Att(k,q)为注意力机制的通用表达形式,AF(k,q)表示Att(k,q)的权重计算,k表示key,q表示query,W1、W2、W3是可学习的参数,分别表示文本注意力机制、动作注意力机制、目标注意力机制,t表示当前步。5.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A6中,给定:所述步骤A6中,给定:
其中,LSTM
lang
表示LSTM语言模型;W
z
,b
z
是网络可学习参数,t表示当前步。6.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,在步骤A6中,根据当前步获得的单词概率分布P
t
,计算交叉熵损...
【专利技术属性】
技术研发人员:高联丽,雷雨,曾鹏鹏,宋井宽,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。