【技术实现步骤摘要】
一种多模态推理与迭代优化视频描述生成模型及方法
[0001]本专利技术属于计算机视觉
,特别涉及一种多模态推理与迭代优化视频描述生成模型及方法。
技术介绍
[0002]视频是互联网时代记录、呈现和传播信息最重要的媒介之一,正在深刻影响人类社会生产和生活的各个方面。如何快速准确从大规模视频数据中获取有价值信息,实现高效视频分析与理解(Video Analysis and Understanding),已成为人工智能领域亟待解决的关键问题。作为视频分析与理解领域一项重要的研究任务,视频描述生成(Video Captioning)主要指以视频为输入,通过模型和计算为相应视频生成自然语言描述,现已被应用于自动解说、导航辅助、人机协同等领域,且在推动医疗、教育、计算机学科本身发展等方面意义巨大。视频描述生成是一项极具挑战的任务,它不仅需要检测空间域中的物体、场景、人物等静态要素,还需要识别时间域上的动作、事件等动态要素,感知各视觉要素间的动态交互关系与时空演化,并通过合适的语言模型生成恰当的描述词汇,最终形成准确连贯且符合人们表 ...
【技术保护点】
【技术特征摘要】
1.一种多模态推理与迭代优化视频描述生成方法,其特征在于:包括以下步骤:步骤1:对输入的视频进行等间隔采样,获得视频帧图像序列;步骤2:将视频帧图像序列输入特征推理模块中,计算得到目标特征Vo、外观特征Va和运动特征Vm;步骤3:将目标特征Vo、外观特征Va、运动特征Vm和上下文引导特征G输入视觉推理模块中,计算得到推理特征V
tL
、V
tR
和V
tF
,V
tL
用于生成名词和形容词,V
tR
用于生成动词,V
tF
用于生成功能性的单词以及其他词性单词,上下文引导特征G的计算公式为:其中,[;]表示拼接操作,E[
·
]表示词嵌入矩阵,y
t
‑1表示t
‑
1时刻生成的描述单词,表示基础解码器的隐藏状态,表示迭代器的隐藏状态;步骤4:将推理特征V
tL
、V
tR
和V
tF
分别与上下文引导特征G输入到分数函数Score(
·
,
·
)中,计算得出V
tL
、V
tR
和V
tF
对应的分数,选择分数最大的推理特征作为初始视觉推理特征V
t
;其中,表示计算得出的分数,表示推理特征,*∈{L,R,F},fc(
·
)表示全连接层,tanh(
·
)表示激活函数;步骤5:将t时刻的初始视觉推理特征V
t
、t
‑
1时刻的迭代器的隐藏状态和t
‑
1时刻生成的描述单词y
t
‑1输入基础解码器,得到t时刻基础解码器输出的隐藏状态和细胞状态基础解码器由LSTM网络构成;步骤6:将t时刻的初始视觉推理特征V
t
、t时刻的基础解码器的隐藏状态和t
‑
1时刻生成的描述单词y
t
‑1输入迭代器,得到t时刻迭代器输出的隐藏状态和细胞状态确定该时间步的描述单词,迭代器由LSTM网络构成;步骤7:重复步骤3
‑
步骤6,直到输出描述语句结束标志或规定的描述语句最大长度为止。2.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤1中,每9
‑
12帧采样一次。3.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤2中,目标特征Vo为目标位置信息和目标区域特征拼接形成。4.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤3中,加性注意力计算过程由下式所示,Additive_Attention(V,q)=soffmax(score(V,q))V=softmax(w
T
tanh(WV+U1
T
q))V其中,V和q分别表示注意力的值和查询,w、W和U为可学习的参数,1代表全1向量;空间注意力SA(V,q)和时序注意力TA(V,q)的计算过程同加性注意力计算过程一致;V
tL
=LOC(V
a
,V
a
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。