【技术实现步骤摘要】
基于文本挖掘的课程元素识别模型训练及识别方法
[0001]本专利技术涉及大数据分析领域,尤其涉及一种基于文本挖掘的课程元素识别模型训练及识别方法。
技术介绍
[0002]文本挖掘是指从大量文本数据中提取用户感兴趣的、有价值的信息的过程。教材能够系统地反映出该学科的主要内容,是高校教学过程中的重要工具。随着深度学习的兴起,计算机处理非结构化文本的能力得到了大幅提升,结构化程度低的教材文本数据可以得到很好的处理。然而,教材文本往往隐含较多的学科知识背景,对于计算机来说,没有知识背景难以识别文本的意图。另外,课程需要挖掘出专业知识中的内涵,这要求计算机进一步理解文本的深层含义。目前文本挖掘在自然语言理解方面的研究还不够成熟,大多根据文章中出现频率高的词语识别文本意图,文本理解的准确性较低,无法满足课程发掘深层教育内涵的要求。
技术实现思路
[0003]本专利技术目的在于提供一种基于文本挖掘的课程元素识别方法及系统,其能用于挖掘专业课程中所包含的元素。
[0004]为了实现上述目的,本专利技术的一实施例提供了 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本挖掘的课程元素识别模型训练方法,其特征在于,包括:构建目标框架,所述目标框架设有若干个维度和各个维度对应的元素;从政治课程和专业课程的教材中采集文本数据并进行预处理得到预处理后的文本数据;对预处理后的文本数据进行分块得到文本数据块;根据若干个维度和各个维度对应的元素对文本数据块进行人工标注得到对应的标签;对文本数据块进行分词处理得到分词数据集,将分词数据集进行词向量化处理得到词向量数据集;构建文本挖掘模型,基于词向量数据集和人工标注的标签对文本挖掘模型进行训练和测试得到最终的文本挖掘模型。2.根据权利要求1所述的基于文本挖掘的课程元素识别模型训练方法,其特征在于,对预处理后的文本数据进行分块得到文本数据块,具体包括:依据政治课程和专业课程的教材中的知识点和/或案例对预处理后的文本数据进行人工分块,得到与知识点和/或案例对应的文本数据块。3.根据权利要求2所述的基于文本挖掘的课程元素识别模型训练方法,其特征在于,对文本数据块进行分词处理得到分词数据集,具体包括:根据政治课程和专业课程的术语预先构建自定义词典,根据自定义词典对与知识点和/或案例对应的文本数据块进行分词处理得到与知识点/或案例对应的分词数据集。4.根据权利要求3所述的基于文本挖掘的课程元素识别模型训练方法,其特征在于,所述对文本数据块进行分词处理得到分词数据集,还包括:根据政治课程和专业课程的术语预先构建自定义停用词典;根据自定义词典、自定义停用词典对与知识点和/或案例对应的文本数据块进行分词处理得到与知识点/或案例对应的分词数据集。5.根据权利要求4所述的基于文本挖掘的课程元素识别模型训练方法,其特征在于,将分词数据集进行词向量化处理得到词向量数据集,具体为:所述采用Word2vec模型对与知识点/或案例对应的分词数据集进行词向量化处理得到知识点/案例对应的词向量数据集。6.根据权利要求5所述的基于文本挖掘的课程元素识别模型训练方法,其特征在于,所述根据若干个维...
【专利技术属性】
技术研发人员:张建桃,刘洁荧,曾莉,韦婷婷,林筱芸,张叶,姜可欣,
申请(专利权)人:华南农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。