基于多模态信息的表演系电影教育视频理解方法和系统技术方案

技术编号：40670640 阅读：5 留言：0更新日期：2024-03-18 19:06

本发明专利技术提供了一种基于多模态信息的表演系电影教育视频理解方法和系统，包括问题生成和问题回答两个关键部分。首先，本发明专利技术通过语音识别技术，将电影中的台词文本提取出来，并将其用于问题生成。问题生成部分通过自动语音识别技术识别视频中的字幕，并使用在问题‑回答文本语料库上进行预训练的语言模型生成问题和相应的答案列表。此外，引入了大型语言模型来对获得的字幕进行浓缩，生成精炼的摘要，以供问题生成和答案提取使用。其次，本发明专利技术还能对用户提出的问题或现存的问题进行回答，系统本身对电影视频的深度理解是问题回答的关键。本发明专利技术为表演系学生提供了更多的资源和工具，以提高他们对电影的理解和表演技巧。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，尤其是涉及视频理解和教育领域。具体而言，本专利技术涉及一种基于多模态信息的深度电影理解系统，旨在为表演系学生提供电影表演教育，包括问题生成和问题回答两个关键部分。

技术介绍

1、电影教育在表演系学生的培训中扮演着至关重要的角色。通过电影，学生能够更好地理解情感表达、角色扮演、戏剧技巧等关键要素。然而，深度理解电影和其背后的故事情节对学生来说是一项具有挑战性的任务。学生需要掌握人物关系、情节发展、场景分析等复杂概念。在教育中应用ai的挑战在于处理多跳和长上下文任务，由于训练数据有限，模型对上下文的理解不足，主要局限于处理固定程序式和逻辑式任务，而不涉及复杂的理解。同时，由于电影具有摄像机切换、构图和移动等镜头摄影技巧，目前的方法以场景级别提取电影的特征信息不足以准确地使模型理解电影中角色之间、角色与地点之间的关系。本专利技术通过大语言模型增强长上下文的理解能力，并采用镜头级别的特征提取，消除摄影技巧带来的影响。

技术实现思路

1、本专利技术的目的在于尝试通过文本、视频等多种信息模态相融合构成特征来自动分析电影故事内容，据此对电影中人物的短期交互和长期关系问题进行自动回答。本专利技术提供了一种基于多模态信息的深度视频理解方法，用于实现电影故事的深度理解和问题生成，以及对学生提出的和现有问题的回答。

2、本专利技术的技术方案提供一个基于多模态信息的表演系电影教育视频理解方法，包括以下步骤：

3、步骤s1，数据预处理阶段，具体实现方式如下：

4、准备人脸库和地点库，将电影中的台词转录为文本信息，并对电影场景基于镜头的切换分割为若干个切片，提取切片的文本特征、视觉特征、人物-人物对特征和人物-地点对特征，对同一场景的不同切片提取的上述特征进行拼接，采取平均池化的方法得到场景级别的特征向量，利用神经网络对电影人物与人物之间，人物与地点之间关系进行预测，将预测结果导入数据库，生成一部电影的知识图谱，知识图谱将用于后续的深度理解即问题回答阶段，其中知识图谱的节点是电影中的实体(人物，地点)，关系边是预测的电影人物与人物之间，人物与地点之间关系；

5、步骤s2，电影问题生成阶段，具体包括如下子步骤：

6、步骤s21，获取电影字幕，并将字幕与提取的视频切片v对齐，确保视频内容与文本信息的一致性；

7、步骤s22，并对电影字幕进行浓缩，并从浓缩的字幕中抽取一组潜在答案；

8、步骤s23，对于每一个提取的答案a，使用t5-base模型来生成相应的问题q；

9、步骤s25，将生成的问题与对应的视频切片和答案整合为视频-问题-答案三元组(v,q,a)，用于对学生进行提问；

10、步骤s3，深度理解即问题回答阶段，包括如下子步骤：

11、步骤s31，将学生提出的影片相关问题转化为数据库查询语句，即对步骤s1生成的知识图谱进行查询，通过检索所生成知识图谱的数据库以回答问题，得到相关的检索信息；

12、步骤s32，根据检索到的信息生成答案，通过大语言模型对知识图谱查询到的明显错误的答案进行过滤；

13、步骤s33，将生成的答案返回给学生，根据问题的回答向学生提供有关电影内容的深入理解。

14、进一步的，通过文本特征提取模型提取切片的文本特征，所述文本特征提取模型包括bert、roberta、t5。

15、进一步的，通过视频特征提取模型提取切片的视觉特征，所述视频特征提取模型包括tsm、timesformer、video swin transformer。

16、进一步的，人物-人物对特征特征的实现方式如下；

17、首先对切片基于人脸检测算法进行逐帧人脸检测和特征提取，以确认人脸的身份；

18、然后使用目标检测器对切片进行目标检测，生成追踪序列，确保正确的人物标识，并将不同镜头中的相同人物合并为同一序列；

19、最后基于人物追踪序列生成人物追踪视频，并通过视频特征提取模型提取人物追踪视频的特征，即为人物-人物对特征。

20、进一步的，人脸检测算法包括scrfd、arcface、retinaface；

21、目标检测器faster rcnn模型、yolo模型、retinanet模型。

22、进一步的，通过预训练好的主干模型提取切片中地点的地点类型，得到同一切片内的人物-地点对特征，并使用平均池化使得场景内所有镜头特征降维成相同长度的向量，主干模型包括resnet、swin transformer、clip-vit。

23、进一步的，通过自动语音识别技术获取电影字幕，采用大型语言模型处理并浓缩字幕段落。

24、进一步的，通过t5-small模型来从浓缩后的字幕中抽取一组潜在答案。

25、本专利技术提供一种基于多模态信息的表演系电影教育视频理解系统，包含以下模块：

26、预处理模块，用于对数据进行预处理，具体实现方式如下：

27、准备人脸库和地点库，将电影中的台词转录为文本信息，并对电影场景基于镜头的切换分割为若干个切片，提取切片的文本特征、视觉特征、人物-人物对特征和人物-地点对特征，对同一场景的不同切片提取的上述特征进行拼接，采取平均池化的方法得到场景级别的特征向量，利用神经网络对电影人物与人物之间，人物与地点之间关系进行预测，将预测结果导入数据库，生成一部电影的知识图谱，知识图谱将用于后续的深度理解即问题回答阶段，其中知识图谱的节点是电影中的实体(人物，地点)，关系边是预测的电影人物与人物之间，人物与地点之间关系；

28、问题生成模块，用于进行电影问题生成，具体包括如下子模块：

29、字幕获取子模块，用于获取电影字幕，并将字幕与提取的视频切片v对齐，确保视频内容与文本信息的一致性；

30、答案抽取子模块，用于对电影字幕进行浓缩，并从浓缩的字幕中抽取一组潜在答案；

31、问题提取子模块，用于对每一个提取的答案a，使用t5-base模型来生成相应的问题q；

32、学生提问子模块，用于将生成的问题与对应的视频切片和答案整合为视频-问题-答案三元组(v,q,a)，用于对学生进行提问；

33、深度理解模块，用于进行深度理解即问题回答，包括如下子模块：

34、查询子模块，用于将学生提出的影片相关问题转化为数据库查询语句，即对预处理模块生成的知识图谱进行查询，通过检索所生成知识图谱的数据库以回答问题，得到相关的检索信息；

35、答案过滤子模块，用于根据检索到的信息生成答案，通过大语言模型对知识图谱查询到的明显错误的答案进行过滤；

36、深度理解子模块，用于将生成的答案返回给学生，根据问题的回答向学生提供有关电影内容的深入理解。

37、本专利技术还提供一种基于多模态信息的表演系电影教育视频理解设备，包括：

38、一个或多个处理本文档来自技高网...

【技术保护点】

1.基于多模态信息的表演系电影教育视频理解方法，其特征在于，包含以下步骤：

2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过文本特征提取模型提取切片的文本特征，所述文本特征提取模型包括Bert、RoBERTa、T5。

3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过视频特征提取模型提取切片的视觉特征，所述视频特征提取模型包括TSM、TimeSformer、Video Swin Transformer。

4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：人物-人物对特征特征的实现方式如下；

5.如权利要求4所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：人脸检测算法包括SCRFD、ArcFace、RetinaFace；

6.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过预训练好的主干模型提取切片中地点的地点类型，得到同一切片内的人物-地点对特征，并使用平均池化使得场景内所有镜头特征降

7.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过自动语音识别技术获取电影字幕，采用大型语言模型处理并浓缩字幕段落。

8.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过T5-small模型来从浓缩后的字幕中抽取一组潜在答案。

9.基于多模态信息的表演系电影教育视频理解系统，其特征在于，包含以下模块：

10.一种基于多模态信息的表演系电影教育视频理解设备，其特征在于，包括：

...

【技术特征摘要】

1.基于多模态信息的表演系电影教育视频理解方法，其特征在于，包含以下步骤：

2.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过文本特征提取模型提取切片的文本特征，所述文本特征提取模型包括bert、roberta、t5。

3.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：通过视频特征提取模型提取切片的视觉特征，所述视频特征提取模型包括tsm、timesformer、video swin transformer。

4.如权利要求1所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：人物-人物对特征特征的实现方式如下；

5.如权利要求4所述的基于多模态信息的表演系电影教育视频理解方法，其特征在于：人脸检测算法包括scrfd、arcface、retinaface；

...

【专利技术属性】
技术研发人员：梁超，伍政谦，李睿哲，郭佳昊，王中元，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人