当前位置: 首页 > 专利查询>清华大学专利>正文

视频分析方法、装置及存储介质制造方法及图纸

技术编号:30029507 阅读:21 留言:0更新日期:2021-09-15 10:18
本申请涉及一种视频分析方法、装置及存储介质,该视频分析方法包括:获取待分析视频、以及与待分析视频相关的待解答问题;确定待分析视频对应的至少一种视频特征信息;确定待解答问题对应的问题特征信息;将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息,从而在对视频进行语义理解分析时,能够以问题为指导对视频进行有针对性的记忆,进而提高对长时视频的记忆效果。进而提高对长时视频的记忆效果。进而提高对长时视频的记忆效果。

【技术实现步骤摘要】
视频分析方法、装置及存储介质


[0001]本申请涉及计算机
,具体涉及一种视频分析方法、装置及存储介质。

技术介绍

[0002]视频问答(VideoQA)旨在对视频的时空内容进行高级推理,并针对自然语言所描绘的给定视频相关问题推断正确答案。
[0003]目前,对于视频问答任务所采用的技术方案是利用已训练的深度学习模型提取视频的表示向量,再通过注意力机制或者记忆模型来对视频和问题这两个模态的特征进行融合和记忆,最后经过一个分类器生成答案。
[0004]但是,现有的记忆模块会记忆大量与问题无关的视频信息,进而导致对长时视频信息的记忆效果差的问题。

技术实现思路

[0005]本申请的目的在于提供一种视频分析方法、装置及存储介质,以提高对长时视频的记忆效果。
[0006]本申请实施例提供了一种视频分析方法,包括:
[0007]获取待分析视频、以及与待分析视频相关的待解答问题;
[0008]确定待分析视频对应的至少一种视频特征信息;
[0009]确定待解答问题对应的问题特征信息;
[0010]将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;
[0011]根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
[0012]本申请实施例还提供了一种视频分析装置,包括:
[0013]获取模块,用于获取待分析视频、以及与待分析视频相关的待解答问题;
[0014]第一确定模块,用于确定待分析视频对应的至少一种视频特征信息;
[0015]第二确定模块,用于确定待解答问题对应的问题特征信息;
[0016]第三确定模块,用于将至少一种视频特征信息和问题特征信息输入已训练的视频记忆模型中进行处理,以从视频特征信息中确定出与待解答问题相关的第一目标特征信息;
[0017]第四确定模块,用于根据第一目标特征信息和问题特征信息,确定待解答问题对应的答案信息。
[0018]其中,已训练的视频记忆模型包括第一子模型和第二子模型,第一确定模块具体包括:
[0019]提取单元,用于从待分析视频中提取多个视频帧;
[0020]第一确定单元,用于确定每一视频帧对应的至少一种视频特征信息;
[0021]第三确定模块具体包括:
[0022]第二确定单元,用于按照时间顺序依次将多个视频帧对应的所述至少一种视频特征信息输入第一子模型中进行处理,以得到每一视频帧对应的第一记忆内容;
[0023]第三确定单元,用于根据多个视频帧对应的至少一种视频特征信息、问题特征信息、第一记忆内容和第二子模型,从每一视频帧对应的视频特征信息中确定出与待解答问题相关的第一目标特征信息。
[0024]其中,第三确定单元具体用于:
[0025]按照时间顺序从多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息;
[0026]将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理,以使第二子模型从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息;
[0027]将当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为第一历史记忆内容和第一历史特征信息,并利用剩余视频帧更新当前视频帧,之后返回执行将当前视频帧对应的至少一种视频特征信息、问题特征信息、第一历史记忆内容和第一历史特征信息输入第二子模型进行处理的步骤。
[0028]其中,至少一种视频特征信息包括动态特征信息和静态特征信息,第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息,从当前视频帧对应的至少一种视频特征信息中,确定出与待解答问题相关的第一目标特征信息,具体包括:
[0029]根据当前视频帧对应的动态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的动态特征信息中,确定出与待解答问题相关的目标动态特征信息;
[0030]根据当前视频帧对应的静态特征信息、第一历史记忆内容、第一历史特征信息和问题特征信息,从当前视频帧对应的静态特征信息中,确定出与待解答问题相关的目标静态特征信息;
[0031]根据第一历史记忆内容、第一历史特征信息和问题特征信息,确定当前视频帧对应的与待解答问题相关的目标全局特征信息。
[0032]其中,第四确定模块具体包括:
[0033]第四确定单元,用于将至少一种视频特征信息和问题特征信息输入已训练的问题记忆模型中进行处理,以从问题特征信息中确定出与待分析视频相关的第二目标特征信息;
[0034]第五确定单元,用于根据第一目标特征信息和第二目标特征信息,确定待解答问题对应的答案信息。
[0035]其中,问题特征信息包含多个单词特征信息,已训练的问题记忆模型包括第三子模型和第四子模型,第四确定单元具体包括:
[0036]第一确定子单元,用于按照待解答问题的单词顺序依次将多个单词特征信息输入第三子模型中进行处理,以得到每一单词特征信息对应的第二记忆内容;
[0037]第二确定子单元,用于根据多个单词特征信息、至少一种视频特征信息、第二记忆内容和第四子模型,从每一单词特征信息中确定出与待分析视频相关的第二目标特征信息。
[0038]其中,第二确定子单元具体用于:
[0039]按照单词顺序从多个单词特征信息中确定当前单词特征信息,并获取上一单词特征信息对应的第二记忆内容和第二目标特征信息分别分别作为第二历史记忆内容和第二历史特征信息;
[0040]将当前单词特征信息、至少一种视频特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理,以使第四子模型从当前单词特征信息中,确定出与待分析视频相关的第二目标特征信息;
[0041]将当前单词特征信息对应的第二记忆内容和第二目标特征信息分别更新为第二历史记忆内容和第二历史特征信息,并利用剩余单词特征信息更新当前单词特征信息,之后返回执行将当前单词特征信息、问题特征信息、第二历史记忆内容和第二历史特征信息输入第四子模型进行处理的步骤。
[0042]其中,第五确定单元具体包括:
[0043]第三确定子单元,用于根据多个视频帧对应的第一目标特征信息得到第一目标特征矩阵,并根据多个单词特征信息对应的第二目标特征信息得到第二目标特征矩阵;
[0044]第四确定子单元,用于将第一目标特矩阵输入已训练的第一自注意力模型中进行处理,以得到第一目标特征信息的第一语义远程依赖信息,并将第二目标特矩阵输入已训练的第二自注意力模型中进行处理,以得到第二目标特征信息的第二语义远程依赖信息;
[0045]第五确定子单元,用于根据第一语义远程依赖信息和第二语义远程依赖信息,确定待解答问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频分析方法,其特征在于,包括:获取待分析视频、以及与所述待分析视频相关的待解答问题;确定所述待分析视频对应的至少一种视频特征信息;确定所述待解答问题对应的问题特征信息;将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理,以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息;根据所述第一目标特征信息和所述问题特征信息,确定所述待解答问题对应的答案信息。2.根据权利要求1所述的视频分析方法,其特征在于,所述已训练的视频记忆模型包括第一子模型和第二子模型,所述确定所述待分析视频对应的至少一种视频特征信息,具体包括:从所述待分析视频中提取多个视频帧;确定每一所述视频帧对应的至少一种视频特征信息;所述将所述至少一种视频特征信息和所述问题特征信息输入已训练的视频记忆模型中进行处理,以从所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息,具体包括:按照时间顺序依次将所述多个视频帧对应的所述至少一种视频特征信息输入所述第一子模型中进行处理,以得到每一所述视频帧对应的第一记忆内容;根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型,从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息。3.根据权利要求2所述的视频分析方法,其特征在于,所述根据所述多个视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一记忆内容和所述第二子模型,从每一所述视频帧对应的所述视频特征信息中确定出与所述待解答问题相关的第一目标特征信息,具体包括:按照所述时间顺序从所述多个视频帧中确定当前视频帧,并获取上一视频帧对应的第一记忆内容和第一目标特征信息分别作为第一历史记忆内容和第一历史特征信息;将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理,以使所述第二子模型从所述当前视频帧对应的所述至少一种视频特征信息中,确定出与所述待解答问题相关的第一目标特征信息;将所述当前视频帧对应的第一记忆内容和第一目标特征信息分别更新为所述第一历史记忆内容和所述第一历史特征信息,并利用剩余视频帧更新所述当前视频帧,之后返回执行所述将所述当前视频帧对应的所述至少一种视频特征信息、所述问题特征信息、所述第一历史记忆内容和所述第一历史特征信息输入所述第二子模型进行处理的步骤。4.根据权利要求3所述的视频分析方法,其特征在于,所述至少一种视频特征信息包括动态特征信息和静态特征信息,所述第一目标特征信息包括目标动态特征信息、目标静态特征信息和目标全局特征信息,所述从所述当前视频帧对应的所述至少一种视频特征信息中,确定出与所述待解答问题相关的第一目标特征信息,具体包括:
根据所述当前视频帧对应的所述动态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,从所述当前视频帧对应的所述动态特征信息中,确定出与所述待解答问题相关的目标动态特征信息;根据所述当前视频帧对应的所述静态特征信息、所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,从所述当前视频帧对应的所述静态特征信息中,确定出与所述待解答问题相关的目标静态特征信息;根据所述第一历史记忆内容、所述第一历史特征信息和所述问题特征信息,确定所述当前视频帧对应的与所述待解答问题相关的目标全局特征信息。5.根据权利要求2所述的视频分析方法,其特征在于,所述根据所述第一目标特征信息和所述问题特征信息,确定所述待解答问题对应的...

【专利技术属性】
技术研发人员:单瀛蔡佳音袁春
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1