System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向知识点语义内容的在线学习平台教学资源分类方法技术_技高网

一种面向知识点语义内容的在线学习平台教学资源分类方法技术

技术编号:42658040 阅读:22 留言:0更新日期:2024-09-10 12:17
本发明专利技术公开了一种面向知识点语义内容的在线学习平台教学资源分类方法,其包括构建知识点‑教学资源交互矩阵,基于ChineseCLIP预训练模型提取知识点的文本嵌入向量,基于自注意力网络微调学习知识点的语义特征,融合教学资源的语音和视觉特征变化量,用软件工具把视频、PPT和习题转换为文本和图像两种模态数据,基于图文跨模态注意机制学习教学资源图像特征和文本语义特征,基于知识点相似度和教学资源相似度寻找与其相关的教学资源,补全知识点‑教学资源交互矩阵的行向量和列向量,利用梯度下降法学习知识点的潜在因子矩阵和教学资源的潜在因子矩阵,基于知识点和教学资源的潜在特征矩阵重构知识点‑教学资源交互矩阵,计算教学资源属于知识点的概率。

【技术实现步骤摘要】

本专利技术涉及教学资源分类方法,特别是一种面向知识点语义内容的在线学习平台教学资源分类方法


技术介绍

1、数字教育时代,国内外涌现了一大批优秀的在线学习平台,高校和企业花费了大量人力、物力和财力建设了海量优质的教学资源,且每年还在源源不断的更新教学资源,面对成千上万的教学资源,师生面临信息过载的问题,即存在资源选择困难,亟需教学资源的检索、索引和推荐系统帮助师生更高效地更准确地选择适合自己的教学资源,同时也提高教学资源的利用率;由于教学资源的规模巨大,对数字化学习资源进行科学有效地分类,是实现教学资源的智能化检索、推荐、索引和数据挖掘的基础,对提高教学资源利用率和促进资源共享具有重要价值和意义。

2、目前教学资源分类主要是按照传统的图书馆或者档案馆等领域的文献资料分类标准,存在以下几个方面的问题:(1)人工分类费时费力低效,粗粒度的学科标准分类不能反映资源所蕴含的具体内容信息,不利于面向专业知识体系的教学资源构建和检索推荐等应用;(2)教学资源具有文本信息长而视觉信息变化少等特点,如何有效表示学习文本特征和如何提取教学视频的关键帧成为难点问题;(3)教学资源的文本和视觉特征位于不同空间,导致不能有效对齐图文互补信息用于教学资源分类;(4)教学资源和其包含的知识点的交互数据少,即存在稀疏性问题,如何利用知识点之间和教学资源之间的相似性关系成为教学资源分类的挑战;为此,我们提出一种面向知识点语义内容的在线学习平台教学资源分类方法。


技术实现思路

1、本专利技术的目的在于提供一种面向知识点语义内容的在线学习平台教学资源分类方法,以解决上述
技术介绍
中提出的问题。

2、为解决上述技术问题,本专利技术提供如下技术方案:一种面向知识点语义内容的在线学习平台教学资源分类方法,包括如下步骤:

3、步骤1,从在线学习平台的课程大纲中按照章节提取知识点和教学资源,将n个知识点整理为集合c,c={c1,c2,...,cn},将l个教学资源标记为集合b,b={b1,b2,…,bl},构建知识点-教学资源交互矩阵x∈rn×l,如果教学资源bj∈b含有知识点ci∈c,其中1≤j≤l,1≤i≤n,则x(ci,bj)=1,否则x(ci,bj)=0;

4、步骤2,基于chineseclip预训练模型提取知识点的文本嵌入向量,基于自注意力网络微调学习知识点的语义特征;

5、步骤2-1,基于分段机制的chineseclip预训练模型提取知识点的文本嵌入向量;

6、假设知识点ci的文本信息为ci.text,以77个字符长度为一段的标准,把文本信息ci.text划分为n1段,每段使用chineseclip预训练模型提取文本嵌入向量

7、其中1≤r1≤n1,

8、其中ci.text.r1是知识点ci的第r1段文本信息,d0是文本嵌入向量的维数,计算n1段文本嵌入向量的平均值作为知识点ci的文本嵌入向量,即

9、

10、步骤2-2,基于自注意力网络微调学习知识点的文本语义特征;

11、假设知识点ci的文本嵌入向量投影到查询投影到键投影到值其中ln(.)是层归一化函数,和分别是投影到查询、键和值的权重矩阵,d是潜在特征维数,知识点ci的文本嵌入向量的注意力分数为

12、

13、其中t为转置操作,softmax()是激活函数,将知识点ci的文本嵌入向量的注意力分数的聚合向量表示投影回空间,则知识点的文本语义特征为

14、

15、其中是投影;

16、步骤3,融合教学资源的语音和视觉特征变化量,用软件工具把视频、ppt和习题转换为文本和图像两种模态数据;

17、步骤3-1,提取教学资源bj中视频的关键帧图像;

18、步骤3-2,利用语音识别工具把教学资源bj中视频的语音转换为文本;

19、利用python的moviepy库的语音提取函数编程从教学资源bj中提取视频的语音文件vj,其中1≤j≤l,使用speechrecognition库的语音识别的函数编程把语音转换为文本;

20、步骤3-3,利用软件工具提取幻灯片文档或习题的文本和图像;

21、用python-pptx库提供的函数编程提取并自动保存幻灯片文档中的文本和图像,使用python中的requests库来获取在线学习平台的习题的网页内容,然后使用beautifulsoup库来解析html,提取并保存文本和图像;

22、步骤4,基于图文跨模态注意机制学习教学资源图像特征和文本语义特征;

23、步骤4-1,基于chineseclip预训练模型提取教学资源bj的文本嵌入向量;

24、假设教学资源bj的文本信息为bj.text,以77个字符长度为一段的标准,把文本信息bj.text划分为n2段,第r2段使用chineseclip预训练模型提取文本嵌入向量

25、其中1≤r2≤n2,

26、其中d0是文本嵌入的维数,计算n2段文本嵌入向量的平均值作为教学资源bj的文本嵌入向量,即

27、步骤4-2,计算教学资源bj的文本嵌入向量的查询;

28、教学资源bj的文本嵌入向量投影到查询其中d是潜在特征维数,计算公式为其中ln(.)是层归一化函数,是教学资源bj的文本嵌入向量投影到查询的权重矩阵;

29、步骤4-3,基于chineseclip预训练模型提取教学资源的图像嵌入向量;

30、假设教学资源bj图像信息为bj.image,含有n3幅图像,第r3幅图像用chineseclip预训练模型提取图像嵌入向量其中1≤r3≤n3,计算n3幅图像嵌入向量的平均值作为教学资源bj的图像嵌入向量,即

31、步骤4-4,计算教学资源的图像嵌入向量的键和值;

32、假设教学资源bj的图像嵌入向量投影到键计算公式为其中是图像嵌入向量投影到键的权重矩阵,

33、假设教学资源bj的图像嵌入向量投影到值计算公式为其中是图像嵌入向量投影到值的权重矩阵;

34、步骤4-5,基于图文跨模态注意机制学习教学资源图像特征和文本语义特征;

35、教学资源bj的文本内容和图像局部内容语义相关,为了增加图文模态特征交互,用文本嵌入向量的查询与图像嵌入向量的键和值构造以文查图的跨模态注意力分数,即

36、

37、为了将图像嵌入于图文共同空间,将跨模态注意力的聚合图像向量表示投影回图像空间则教学资源的图像特征为

38、其中

39、类似的,用图像嵌入向量的查询与文本嵌入向量的键和值构造以图查文的跨模态注意力则教学资源的文本语义特征为其中

40、使用交叉熵作为损失函数,在教学资源数据集上训练自注意力网络,估计最优的查询、键和值的权重矩阵,由l个教学资源的图像特征组成了教学资源的图像特征矩阵由l个教学资源的文本本文档来自技高网...

【技术保护点】

1.一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,步骤3-1中,假设视频教学资源bj的时长为Tj秒,按照10秒的时间间隔划分为若干段语音和视频图像,计算从t时刻开始的10秒内语音特征变化率均值其中0<t<Tj-10,表示教学资源bj在t时刻的语音特征,计算从t时刻开始的10秒内视频帧图像特征变化率均值其中0<t<Tj-10,表教学资源bj在t时刻的图像特征,如果语音特征变化率At大于阈值ξ1,阈值ξ1等于0.4,则表明有可能一句话讲完了或主题内容会发生改变,如果图像特征变化率It大于阈值ξ2,阈值ξ2等于0.5,则表明主题内容可能会发生改变,当语音特征变化率At大于阈值ξ1且图像特征变化率It大于阈值ξ2,则输出视频帧为关键帧图像。

3.如权利要求1所述的一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,步骤5具体包括:

4.如权利要求1所述的一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,步骤6具体包括:

5.如权利要求4所述的一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,步骤6-4具体包括:

...

【技术特征摘要】

1.一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种面向知识点语义内容的在线学习平台教学资源分类方法,其特征在于,步骤3-1中,假设视频教学资源bj的时长为tj秒,按照10秒的时间间隔划分为若干段语音和视频图像,计算从t时刻开始的10秒内语音特征变化率均值其中0<t<tj-10,表示教学资源bj在t时刻的语音特征,计算从t时刻开始的10秒内视频帧图像特征变化率均值其中0<t<tj-10,表教学资源bj在t时刻的图像特征,如果语音特征变化率at大于阈值ξ1,阈值ξ1等于0.4,则表...

【专利技术属性】
技术研发人员:谢从华高蕴梅陈夏丹
申请(专利权)人:常熟理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1