当前位置: 首页 > 专利查询>南开大学专利>正文

一种多模态推理与迭代优化视频描述生成模型及方法技术

技术编号:37463379 阅读:24 留言:0更新日期:2023-05-06 09:36
本发明专利技术提供了一种多模态推理与迭代优化视频描述生成方法,包括以下步骤:根据采样后的视频帧得到目标特征、外观特征和运动特征;三个特征和上下文引导特征G计算得到三种单词的推理特征;选择其中一个作为基础解码器的一项输入内容;基础解码器输出的隐藏状态作为迭代器的一项输入内容;计算描述单词的概率分布;生成描述语句。以及视频描述生成模型,包括编码器部分和解码器部分,所述解码器部分包括依次连接的基础解码器和迭代器,基础解码器和迭代器由LSTM网络构成。本发明专利技术的完全动态的上下文引导特征与迭代器确实极大地提升了描述语句的质量,模型能够为视频数据生成更加准确、更加细致、更加全面且更具表达力的描述语句。句。句。

【技术实现步骤摘要】
一种多模态推理与迭代优化视频描述生成模型及方法


[0001]本专利技术属于计算机视觉
,特别涉及一种多模态推理与迭代优化视频描述生成模型及方法。

技术介绍

[0002]视频是互联网时代记录、呈现和传播信息最重要的媒介之一,正在深刻影响人类社会生产和生活的各个方面。如何快速准确从大规模视频数据中获取有价值信息,实现高效视频分析与理解(Video Analysis and Understanding),已成为人工智能领域亟待解决的关键问题。作为视频分析与理解领域一项重要的研究任务,视频描述生成(Video Captioning)主要指以视频为输入,通过模型和计算为相应视频生成自然语言描述,现已被应用于自动解说、导航辅助、人机协同等领域,且在推动医疗、教育、计算机学科本身发展等方面意义巨大。视频描述生成是一项极具挑战的任务,它不仅需要检测空间域中的物体、场景、人物等静态要素,还需要识别时间域上的动作、事件等动态要素,感知各视觉要素间的动态交互关系与时空演化,并通过合适的语言模型生成恰当的描述词汇,最终形成准确连贯且符合人们表达习惯的描述语句。由本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态推理与迭代优化视频描述生成方法,其特征在于:包括以下步骤:步骤1:对输入的视频进行等间隔采样,获得视频帧图像序列;步骤2:将视频帧图像序列输入特征推理模块中,计算得到目标特征Vo、外观特征Va和运动特征Vm;步骤3:将目标特征Vo、外观特征Va、运动特征Vm和上下文引导特征G输入视觉推理模块中,计算得到推理特征V
tL
、V
tR
和V
tF
,V
tL
用于生成名词和形容词,V
tR
用于生成动词,V
tF
用于生成功能性的单词以及其他词性单词,上下文引导特征G的计算公式为:其中,[;]表示拼接操作,E[
·
]表示词嵌入矩阵,y
t
‑1表示t

1时刻生成的描述单词,表示基础解码器的隐藏状态,表示迭代器的隐藏状态;步骤4:将推理特征V
tL
、V
tR
和V
tF
分别与上下文引导特征G输入到分数函数Score(
·

·
)中,计算得出V
tL
、V
tR
和V
tF
对应的分数,选择分数最大的推理特征作为初始视觉推理特征V
t
;其中,表示计算得出的分数,表示推理特征,*∈{L,R,F},fc(
·
)表示全连接层,tanh(
·
)表示激活函数;步骤5:将t时刻的初始视觉推理特征V
t
、t

1时刻的迭代器的隐藏状态和t

1时刻生成的描述单词y
t
‑1输入基础解码器,得到t时刻基础解码器输出的隐藏状态和细胞状态基础解码器由LSTM网络构成;步骤6:将t时刻的初始视觉推理特征V
t
、t时刻的基础解码器的隐藏状态和t

1时刻生成的描述单词y
t
‑1输入迭代器,得到t时刻迭代器输出的隐藏状态和细胞状态确定该时间步的描述单词,迭代器由LSTM网络构成;步骤7:重复步骤3

步骤6,直到输出描述语句结束标志或规定的描述语句最大长度为止。2.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤1中,每9

12帧采样一次。3.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤2中,目标特征Vo为目标位置信息和目标区域特征拼接形成。4.如权利要求1所述的多模态推理与迭代优化视频描述生成方法,其特征在于:步骤3中,加性注意力计算过程由下式所示,Additive_Attention(V,q)=soffmax(score(V,q))V=softmax(w
T
tanh(WV+U1
T
q))V其中,V和q分别表示注意力的值和查询,w、W和U为可学习的参数,1代表全1向量;空间注意力SA(V,q)和时序注意力TA(V,q)的计算过程同加性注意力计算过程一致;V
tL
=LOC(V
a
,V
a
...

【专利技术属性】
技术研发人员:赫鑫宇仪德智谢坤鹏卢冶
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1