当前位置: 首页 > 专利查询>武汉大学专利>正文

基于多模态信息的表演系电影教育视频理解方法和系统技术方案

技术编号:40670640 阅读:32 留言:0更新日期:2024-03-18 19:06
本发明专利技术提供了一种基于多模态信息的表演系电影教育视频理解方法和系统,包括问题生成和问题回答两个关键部分。首先,本发明专利技术通过语音识别技术,将电影中的台词文本提取出来,并将其用于问题生成。问题生成部分通过自动语音识别技术识别视频中的字幕,并使用在问题‑回答文本语料库上进行预训练的语言模型生成问题和相应的答案列表。此外,引入了大型语言模型来对获得的字幕进行浓缩,生成精炼的摘要,以供问题生成和答案提取使用。其次,本发明专利技术还能对用户提出的问题或现存的问题进行回答,系统本身对电影视频的深度理解是问题回答的关键。本发明专利技术为表演系学生提供了更多的资源和工具,以提高他们对电影的理解和表演技巧。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域,尤其是涉及视频理解和教育领域。具体而言,本专利技术涉及一种基于多模态信息的深度电影理解系统,旨在为表演系学生提供电影表演教育,包括问题生成和问题回答两个关键部分。


技术介绍

1、电影教育在表演系学生的培训中扮演着至关重要的角色。通过电影,学生能够更好地理解情感表达、角色扮演、戏剧技巧等关键要素。然而,深度理解电影和其背后的故事情节对学生来说是一项具有挑战性的任务。学生需要掌握人物关系、情节发展、场景分析等复杂概念。在教育中应用ai的挑战在于处理多跳和长上下文任务,由于训练数据有限,模型对上下文的理解不足,主要局限于处理固定程序式和逻辑式任务,而不涉及复杂的理解。同时,由于电影具有摄像机切换、构图和移动等镜头摄影技巧,目前的方法以场景级别提取电影的特征信息不足以准确地使模型理解电影中角色之间、角色与地点之间的关系。本专利技术通过大语言模型增强长上下文的理解能力,并采用镜头级别的特征提取,消除摄影技巧带来的影响。


技术实现思路

1、本专利技术的目的在于尝试通过文本、视频等多种信息模态本文档来自技高网...

【技术保护点】

1.基于多模态信息的表演系电影教育视频理解方法,其特征在于,包含以下步骤:

2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过文本特征提取模型提取切片的文本特征,所述文本特征提取模型包括Bert、RoBERTa、T5。

3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过视频特征提取模型提取切片的视觉特征,所述视频特征提取模型包括TSM、TimeSformer、Video Swin Transformer。

4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:人物-...

【技术特征摘要】

1.基于多模态信息的表演系电影教育视频理解方法,其特征在于,包含以下步骤:

2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过文本特征提取模型提取切片的文本特征,所述文本特征提取模型包括bert、roberta、t5。

3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:通过视频特征提取模型提取切片的视觉特征,所述视频特征提取模型包括tsm、timesformer、video swin transformer。

4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:人物-人物对特征特征的实现方式如下;

5.如权利要求4所述的基于多模态信息的表演系电影教育视频理解方法,其特征在于:人脸检测算法包括scrfd、arcface、retinaface;

...

【专利技术属性】
技术研发人员:梁超伍政谦李睿哲郭佳昊王中元
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1