【技术实现步骤摘要】
本专利技术涉及计算机视觉领域,尤其是涉及视频理解和教育领域。具体而言,本专利技术涉及一种基于多模态信息的深度电影理解系统,旨在为表演系学生提供电影表演教育,包括问题生成和问题回答两个关键部分。
技术介绍
1、电影教育在表演系学生的培训中扮演着至关重要的角色。通过电影,学生能够更好地理解情感表达、角色扮演、戏剧技巧等关键要素。然而,深度理解电影和其背后的故事情节对学生来说是一项具有挑战性的任务。学生需要掌握人物关系、情节发展、场景分析等复杂概念。在教育中应用ai的挑战在于处理多跳和长上下文任务,由于训练数据有限,模型对上下文的理解不足,主要局限于处理固定程序式和逻辑式任务,而不涉及复杂的理解。同时,由于电影具有摄像机切换、构图和移动等镜头摄影技巧,目前的方法以场景级别提取电影的特征信息不足以准确地使模型理解电影中角色之间、角色与地点之间的关系。本专利技术通过大语言模型增强长上下文的理解能力,并采用镜头级别的特征提取,消除摄影技巧带来的影响。
技术实现思路
1、本专利技术的目的在于尝试通过文本
...【技术保护点】
1.基于多模态信息的表演系电影教育视频理解方法,其特征在于,包含以下步骤:
2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过文本特征提取模型提取切片的文本特征,所述文本特征提取模型包括Bert、RoBERTa、T5。
3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过视频特征提取模型提取切片的视觉特征,所述视频特征提取模型包括TSM、TimeSformer、Video Swin Transformer。
4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法
...【技术特征摘要】
1.基于多模态信息的表演系电影教育视频理解方法,其特征在于,包含以下步骤:
2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过文本特征提取模型提取切片的文本特征,所述文本特征提取模型包括bert、roberta、t5。
3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过视频特征提取模型提取切片的视觉特征,所述视频特征提取模型包括tsm、timesformer、video swin transformer。
4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:人物-人物对特征特征的实现方式如下;
5.如权利要求4所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:人脸检测算法包括scrfd、arcface、retinaface;
...【专利技术属性】
技术研发人员:梁超,伍政谦,李睿哲,郭佳昊,王中元,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。