当前位置: 首页 > 专利查询>西北大学专利>正文

一种智能化的在线教学资源知识点概念实体链接方法技术

技术编号:33347938 阅读:20 留言:0更新日期:2022-05-08 09:47
一种智能化的在线教学资源知识点概念实体链接方法,知识点概念实体识别模型和知识点概念链接模型,由于应用场景主要面向国内在线学习平台中的教学资源组织管理,国内的教学基本为中文教学,因此仅适用于中文语言文本,兼容部分英文文本。知识点概念实体识别是要从教学资源文本中抽取出包含的知识点概念实体词汇,学科、专业术语和历史事件等,抽取出的知识点概念实体称之为知识点提及;知识点概念关联指,根据所抽取出的知识点概念提及以及其所处的上下文语境,从知识库中找出语义相似度最高的概念知识,进行关系。通过知识点概念实体识别和知识点概念链接,实现教学资源之间与知识点概念之间的关联,达到了构建以概念知识为核心的教学资源组织体系目的。心的教学资源组织体系目的。

【技术实现步骤摘要】
一种智能化的在线教学资源知识点概念实体链接方法


[0001]本专利技术涉及智能教育,具体涉及一种智能化的在线教学资源知识点概念实体链接方法。

技术介绍

[0002]传统的教学资源库中承载着大量的学习资源,其丰富的教学资源类型受到了人们广泛的关注。随着在线学习平台上的使用人数越来越多,为了满足不同用户对于资源的不同需求,平台中的教学资源数量和类型也在不断增加。在实践中,伴随教学资源数量的增加以及内容的多元化,学习者需要耗费比以往更多的时间和精力在教学资源平台上搜寻和选择自身所需要的学习资源,学习者在平台中的学习效率也在逐渐降低,严重影响了学习者的学习质量和学习的主动性。
[0003]知识图谱作为一种能够有效结构化人类知识的手段,已成为了推动互联网和人工智能发展的核心驱动力。自适应学习系统中的教学资源库同样可以借助知识图谱技术,构建以知识为核心的教学资源体系。教学资源可以通过与概念知识点进行关联,能够有效地对教学资源体系进行组织,为自适应学习系统赋能。
[0004]在线教学资源中已有的知识点概念标注和关联,均通过教师手工的方式进行录本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能化的在线教学资源知识点概念实体链接方法,其特征在于,包括以下步骤:1)首先对字符串进行字符串清洗的预处理过程,字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集,若不在该字符集中,则将该字符移除;2)模型需要对清洗后的字符串C={c1,c2,......,c
l
}中的各个元素通过”BIO”标注机制进行序列标注,当一个字符c
i
被标注为”B”时,代表字符c
i
为某个知识点概念词汇实体的首个字符,”I”为个知识点概念词汇实体的中间字符,”O”为非知识点概念词汇字符,最终得到文本数据;3)文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict,使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹配,找出字符串中包含的词典词汇,所匹配到的字符子串均以“BIEO”机制进行标注,即若匹配到的字符子串为C
sub
={c
i
,c
i+1
,......,c
i+m
},C
sub
∈Dict,对子串中的起始字符c
i
标注为“B”,结束字符c
i+m
标注为“E”,起始字符c
i
和结束字符c
i+m
之间的字符串{c
i+1
,c
i+2
,......,c
i+m
‑1}包含的字符全部标注为”I”,未匹配到的其它字符标注为“O”,通过这种机制,可以得到一串带标注的字符串同时添加起始字符“[CLS]”和结束字符“[SEP]”,S={s
[CLS]
,s1,s2,......,s
l
,S
[SEP]
},其中每个元素s
i
由字符串C中相应索引位置的字符c
i
和标注字符组成;4)将上述得到带标注的字符串S进行向量空间嵌入操作Embedding(S),即将S中的每个元素s
i
表征为一个维度为d
s
的高维向量,其向量中的数值均使用KaiMing分布随机初始化,嵌入后的序列向量为5)通过上述操作得到的序列向量E
S
包含了知识点概念词汇的边界信息,将对字符串C中所包含的上下文语义信息进行表征,使用的是预训练的神经网络语言模型Bert,预训练模型指已在大规模通用文本数据训练后的模型,将预训练的语言模型Bert作为语义编码器,能够有效地将文本序列表征为高维向量,将清洗后的字符串C作为预训练Bert语言模型的输入,Bert模型是以字符为单位对字符串C进行计算,对于输入的字符串C={c1,c2,......,c
l
},Bert模型会首先在字符串的起始位置之前和末尾位置之后分别插入标识符”[CLS]”和”[SEP]”,即字符串{

[CLS]

,c1,c2,......,c
l


[SEP]

}作为模型的计算数据;6)通过上述Bert模型的得到的输出向量F即为字符串C的编码向量,接下来将结合带有概念知识点词汇边界信息的序列向量E
S
,并通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体;将预测标签序列上相应的子串进行提取,可以得到知识点概念提及实体;7)知识点概念实体链接模型是将抽取出的知识点概念提及实体M={m1,m2,......,m
k
}与知识库中的知识点实体进行匹配和关联,基于Levenshtein Distance字符串模糊匹配算法的候选知识点概念实体生成,将当前的提及实体m
i
与知识库中的知识点概念词汇进行模糊匹配,通过设定模糊匹配算法中的编辑距离参数Distance,将匹配到的编辑距离大于Distance的知识点概念词汇进行过滤,生成候选知识点概念实体集8)通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行编码,获取用于表征候选知识点概念实体的向量,对于一个候选知识点概念实体entity
i

其相应的摘要描述为字符串作为Bert模型的输入,Bert模型编码后的输出向量为将标识符”CLS”相应的隐含向量h
cls
,通过激活函数为tanh的全连接层,得到输出向量作为候选知识点概念实体的表征向量,即量,即通过这种方式,可以获得候选知识点概念实体集的表征向量集合9)对于每个提及知识点概念m
i
的表征,首先通过预训练Bert模型对提及知识点概念所位于的课程文本C={c1,c2,......,c
l
}进行编码,获取课程文本的表征向量V
C
,获取表征向量V
C
的方式与候选知识点概念实体的表征向量方法相同;10)课程文本中每个字符通过Bert模型计算后的编码向量为H
C
={h
cls
,h1,h2,......,h
l
,h
sep
},对于所抽取的提及知识点概念m
i
,其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中,beg表示子串在C中的起始位置索引,end表示子串在C中的结束位置索引。将编码向量H
C
中提取中起始位置索引beg与结束位置索引end之间的编码向量,表示为将通过文本卷积网络TextCNN,得到提及知识点概念实体的表征向量TextCNN模型对于输入的计算,将课程文本的表征向量V
C
与提及知识点概念实体的表征向量进行Concatenate拼接操作,并经过一个激活函数为tanh的全连接层,得到输出向量即即11)将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合中的每个向量进行cos相似度计算,即从候选知识点概念实体集从候选知识点概念实体集选择选择相似度最高的知识点概念与提及知识点概念进行关联,即最后的关联结果可以表示为一个二元组12)输入课程文本中所包含的知识点概念链接结果为12)输入课程文本中所包含的知识点概念链接结果为完成对教学资源之间与知识库中知识点概念之间的关联。2.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法,其特征在于,所述的知识点概念实体识别模型的输入是一段文本字符串X={x1,x2,......,x
n
},X由n个字符构成,x
i
为X的第i个字符,该文本字符串可来自于课程视频字幕或电子教材文本等。3.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法,其特征在于,所述的字符串清洗的预处理方法的实现主要通过Unicode编码表实现,当一个字符x
i
的Unicode编码位于\u4e00和\u9fa5之间时,即

字符x
i
为中文字符。同理,当时,字符x
i
为数字字符;当或时,字符x
i
为英文字
符,Unicode编码为上述编码范围之外...

【专利技术属性】
技术研发人员:袁新瑞王雨扬
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1