一种基于视频问答的短视频标注方法技术

技术编号:37772212 阅读:29 留言:0更新日期:2023-06-06 13:37
本发明专利技术公开了一种基于视频问答的短视频标注方法,属于视觉问答技术领域。首先从短视频平台按不同类别收集短视频素材,针对每个视频帧提取视觉对象和场景文本的高维特征表示;利用多模态变压器模拟两个模态之间的相互作用;以对象或文本作为答案,通过具有自回归机制的迭代解码来预测与答案对应的问题;然后针对待标注的短视频,将问题和答案分别与视频帧和音频组合,其中视频帧的一组先通过RCNN处理,两组再分别重组进入BERT网络和全连接层进行预测;对两组的预测进行求和,并经过归一化将求和的向量转换为答案分数,输出分数最高的回答。最后,以所有回答作为文本,利用RNN网络进行文本分类,生成的标签即作为短视频标注的结果。结果。结果。

【技术实现步骤摘要】
一种基于视频问答的短视频标注方法


[0001]本专利技术涉及视觉问答
,具体涉及一种基于视频问答的短视频标注方法。

技术介绍

[0002]视觉问答任务是人工智能领域一项具有挑战性和实用性的任务,属于一种多模态任务,主要是涉及计算机视觉和自然语言处理的一个交叉研究方向。视频问答(Video Question Answering)是视觉问答中的一种任务类型,是用于处理视频与文本问题的多模态的推理任务。视频问答是指:给定一个视频和与该视频的相关问题,视频问答的目标是结合视频的视觉信息和问题文本内容,通过对视频和文本进行特征融合以及推理来获得问题的答案。
[0003]文本视觉问答(Text Visual Question Answering)是视觉问答中的一种任务类型,是用于处理图象与文本问题的多模态推理任务。文本视觉问答是指:给定一个图像和与该图像相关的问题,目标是通过识别图像中的场景文本和物体对象来进行联合推理以获得答案。与传统视觉问答任务不同的是,文本视觉问答更关注于图像的文本信息,而答案可以来自于候选答案集,也可以来自于图像中识别本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于视频问答的短视频标注方法,其特征在于,该方法包括以下具体步骤:步骤1:从短视频平台按不同类别收集短视频素材,针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列;步骤2:以视觉对象或场景文本作为答案,通过具有自回归机制的迭代解码来预测与答案对应的问题;步骤3:针对待标注的短视频,将问题和答案分别与视频帧和音频组合;步骤4:视频帧一组先通过R

CNN处理,再重组形成字符串序列,进入BERT网络和全连接层进行预测;步骤5:音频一组直接重组形成字符串序列,进入BERT网络和全连接层进行预测;步骤6:对两组的预测进行求和,并使用归一化将求和的向量转换为答案分数,输出分数最高的回答;步骤7:以所有回答作为文本,利用RNN网络进行文本分类,生成的标签即作为短视频标注的结果;其中,所述步骤1具体为:1.1:从短视频平台按类别收集短视频素材,类别按内容分为剧情类、搞笑类、才艺类和生活技巧类;对于每一个视频帧,分别利用OCR识别场景文本、利用预训练的2D对象检测器和R

CNN来定位视觉对象;1.2:从场景文本或视觉对象中任取一个词或对象作为答案,将该回答词、检测到的视觉对象和所有检测到的OCR标记作为高维特征嵌入,投影到一个共同的d维嵌入空间中;1.3:将提取到的高维特征表示输入一个多模态变压器,输入序列为F={F
ans
,F
obj
,F
ocr
},其中F
ans
、F
obj
、F
ocr
分别表示回答词、视觉对象、OCR标记的特征嵌入表示;1.4:通过多头注意力机制对不同模态的特征嵌入之间的交互进行建模,再从多模态变压器的输出中,提取出每个模态的d维特征向量序列;所述步骤2具体为:2.1:将特征向量序列输入多步解码模块,该模块根据输入的答案逐字迭代地输出预测的问题;2.2...

【专利技术属性】
技术研发人员:周佳仪应振宇吴兴蛟肖路巍马天龙
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1