System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态大语言模型的学习者投入度分析方法和系统技术方案_技高网

基于多模态大语言模型的学习者投入度分析方法和系统技术方案

技术编号:41340779 阅读:9 留言:0更新日期:2024-05-20 09:58
本发明专利技术公开了一种基于多模态大语言模型的学习者投入度分析方法和系统,该方法包括:获取课堂视频样本,对课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集;根据视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型;获取待分析的课堂学习情境视频,对课堂学习情境视频进行特征提取、时序嵌入以及高维映射,得到多模态高维向量;根据多模态高维向量构建提示文本,将提示文本和多模态高维向量输入投入度分析多模态大模型,得到学习者投入度分析结果。本发明专利技术能够提高学习者投入度分析的稳定性和准确性,可广泛应用于数据处理技术领域。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种基于多模态大语言模型的学习者投入度分析方法和系统


技术介绍

1、学习者投入度是指学生积极参与和投入到学习历程的程度,学习者投入度主要划分为行为投入、情感投入以及认知投入三个维度,其反映了学生对于正在经历的学习活动,在认知上、情感上以及行为上的投入状态,它是衡量学生学习过程质量的一个重要指标。

2、传统的学习者投入度评估方法主要侧重由人为手工填写分析,比如个人报告填写方式,该方法主要是让参与者回答一系列与他们的经历相关的问题,例如,他们的参与度和兴趣程度;另一种常用方法则是由外部专家所开展的观察性研究,该方法侧重于对学生的行为分析。这些传统分析方法是回顾总结性的,因而导致无法准确反映出学生的实时参与度。基于机器学习或深度学习的学习者投入度自动估计方法逐渐被提出,然而,这些深度学习和计算机视觉技术估计的学习者学习投入度水平容易受到随时间而变化的影响,进而难以适应实际教学场景下对学生的学习投入度自动分析任务。


技术实现思路

1、为解决上述技术问题,本专利技术的目的在于:提供一种准确率高的基于多模态大语言模型的学习者投入度分析方法和系统。

2、为实现上述目的,本申请实施例的一方面提出了一种基于大语言模型的多模态文件检索方法,包括以下步骤:

3、获取课堂视频样本,进而对所述课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集;

4、根据所述视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型;

5、获取待分析的课堂学习情境视频,对所述课堂学习情境视频进行特征提取,得到与所述课堂学习情境视频对应的视频帧和音频帧,对所述视频帧和所述音频帧进行时序嵌入,得到多模态特征向量,进而对所述多模态特征向量进行高维映射,得到多模态高维向量;

6、根据所述多模态高维向量构造提示文本,将所述提示文本和所述多模态高维向量输入所述投入度分析多模态大模型,得到学习者投入度分析结果;

7、其中,所述多模态特征向量包括视频特征向量和音频特征向量,所述多模态高维向量包括视频高维向量和音频高维向量。

8、在一些实施例中,所述视频指令训练数据集包括第一视频指令训练数据和第二视频指令训练数据,所述对所述课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集这一步骤,其具体包括:

9、根据预设的视频数据集对所述课堂视频样本进行初次标注,得到所述第一视频指令训练数据;

10、根据所述视频数据集通过视觉语言算法对所述课堂视频样本进行二次标注,得到第一训练数据;

11、通过katna视频处理算法消除所述第一训练数据中的噪声,得到第二训练数据;

12、通过预设的视觉语言预训练模型对所述第二训练数据进行关键帧分析,并通过tag2text算法对关键帧分析后的所述第二训练数据进行文本描述,得到第一帧级文本描述数据;

13、确定tag2text标记词汇表,提取所述第一帧级文本描述数据中的单词,进而将所述tag2text标记词汇表与所述单词进行匹配,消除匹配失败的所述单词,得到多个第二帧级文本描述数据;

14、将各所述第二帧级文本描述数据进行合并,得到所述第二视频指令训练数据。

15、在一些实施例中,所述根据所述视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型这一步骤,其具体包括:

16、将多模态对比损失函数作为目标函数,通过所述目标函数对所述大语言模型进行特征对齐预训练;

17、获取所述视频指令训练数据集对应的时序采样信息,将所述视频指令训练数据集、所述时序采样信息以及预设的指令数据输入特征对齐预训练后的所述大语言模型,得到响应数据;

18、根据所述响应数据对特征对齐预训练后的所述大语言模型进行指令微调训练,得到所述投入度分析多模态大模型。

19、在一些实施例中,所述对所述课堂学习情境视频进行特征提取,得到与所述课堂学习情境视频对应的视频帧和音频帧这一步骤,其具体包括:

20、通过图像编码器将所述课堂学习情境视频中的每一帧图像转换为图像嵌入向量,得到与所述课堂学习情境视频对应的所述视频帧;

21、根据预设时间间隔对所述课堂学习情境视频进行均匀采样,得到多个音频片段,进而通过梅尔频谱图滤波器将各所述音频片段转换为频谱图;

22、通过音频编码器将各所述频谱图转换为音频嵌入向量,得到与所述课堂学习情境视频对应的所述音频帧。

23、在一些实施例中,所述对所述视频帧和所述音频帧进行时序嵌入,得到多模态特征向量这一步骤,其具体包括:

24、将各帧所述图像对应的第一时序信息嵌入对应的所述视频帧中,得到所述视频特征向量;

25、将各所述音频片段对应的第二时序信息嵌入对应的所述音频帧中,得到所述音频特征向量。

26、在一些实施例中,对所述多模态特征向量进行高维映射,得到多模态高维向量这一步骤,其具体包括:

27、将所述视频特征向量映射到高维特征嵌入空间中,得到所述视频高维向量;

28、将所述音频特征向量映射到所述高维特征嵌入空间中,得到所述音频高维向量。

29、在一些实施例中,所述提示文本包括全局交互提示规则、视听模块访问提示文本、用户请求响应提示文本以及视听模块输出管理提示文本,所述全局交互提示规则用于使得所述投入度分析多模态大模型确定学习者投入度分析任务,所述视听模块访问提示文本用于使得所述投入度分析多模态大模型调用预设的视觉模块和预设的听觉模块,所述用户请求响应提示文本用于使得所述多模态高维向量生成预设的文件名称,所述视听模块输出管理提示文本用于使得所述投入度分析多模态大模型对所述视觉模块和所述听觉模块的中间输出结果进行总结。

30、为实现上述目的,本申请实施例的另一方面提出了一种基于多模态大语言模型的学习者投入度分析系统,包括:

31、数据集构建模块,用于获取课堂视频样本,进而对所述课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集;

32、模型训练模块,用于根据所述视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型;

33、数据处理模块,用于获取待分析的课堂学习情境视频,对所述课堂学习情境视频进行特征提取,得到与所述课堂学习情境视频对应的视频帧和音频帧,对所述视频帧和所述音频帧进行时序嵌入,得到多模态特征向量,进而对所述多模态特征向量进行高维映射,得到多模态高维向量;

34、学习者投入度分析模块,用于根据所述多模态高维向量构造提示文本,将所述提示文本和所述多模态高维向量输入所述投入度分析多模态大模型,得到学习者投入度分析结果;

35、其中,所述多模态特征向量包括视频特征本文档来自技高网...

【技术保护点】

1.一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述视频指令训练数据集包括第一视频指令训练数据和第二视频指令训练数据,所述对所述课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集这一步骤,其具体包括:

3.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述根据所述视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型这一步骤,其具体包括:

4.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述课堂学习情境视频进行特征提取,得到与所述课堂学习情境视频对应的视频帧和音频帧这一步骤,其具体包括:

5.根据权利要求4所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述视频帧和所述音频帧进行时序嵌入,得到多模态特征向量这一步骤,其具体包括:

6.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述多模态特征向量进行高维映射,得到多模态高维向量这一步骤,其具体包括:

7.根据权利要求1至6中任一项所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述提示文本包括全局交互提示规则、视听模块访问提示文本、用户请求响应提示文本以及视听模块输出管理提示文本,所述全局交互提示规则用于使得所述投入度分析多模态大模型确定学习者投入度分析任务,所述视听模块访问提示文本用于使得所述投入度分析多模态大模型调用预设的视觉模块和预设的听觉模块,所述用户请求响应提示文本用于使得所述多模态高维向量生成预设的文件名称,所述视听模块输出管理提示文本用于使得所述投入度分析多模态大模型对所述视觉模块和所述听觉模块的中间输出结果进行总结。

8.一种基于多模态大语言模型的学习者投入度分析系统,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于多模态大语言模型的学习者投入度分析方法的步骤。

10.一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的基于多模态大语言模型的学习者投入度分析方法的步骤。

...

【技术特征摘要】

1.一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述视频指令训练数据集包括第一视频指令训练数据和第二视频指令训练数据,所述对所述课堂视频样本进行人工标注和算法标注,得到视频指令训练数据集这一步骤,其具体包括:

3.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述根据所述视频指令训练数据集对预设的大语言模型进行特征对齐预训练和端到端指令微调训练,得到投入度分析多模态大模型这一步骤,其具体包括:

4.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述课堂学习情境视频进行特征提取,得到与所述课堂学习情境视频对应的视频帧和音频帧这一步骤,其具体包括:

5.根据权利要求4所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述视频帧和所述音频帧进行时序嵌入,得到多模态特征向量这一步骤,其具体包括:

6.根据权利要求1所述的一种基于多模态大语言模型的学习者投入度分析方法,其特征在于,所述对所述多模态特征向量进行高维映射,得到多模态高维向量这一步骤,其具体包括:

7.根据权利要求1至6中任一项...

【专利技术属性】
技术研发人员:黄昌勤蒋凡蒋云良肖俊黄琼浩
申请(专利权)人:浙江师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1