【技术实现步骤摘要】
一种基于题意文本的同知识点试题分组系统和方法
[0001]本专利技术涉及在线试题学习领域,尤其涉及一种基于题意文本的同知识点试题分组系统和方法。
技术介绍
[0002]与传统的纸质试题相比,在线试题拥有更实时的反馈、更灵活的交互、更智能的评测以及更广阔的范围。也因此,越来越多的课程教学和培训移步互联网,有些课程将作业与考核放于线上,而有些甚至直接转变为线上课程。线上教学平台的普及带来了在线练习与线上考试的流行,也因此绝大多数在线教学平台(例如作业帮、拼题A、中国大学MOOC等)都拥有自己的提供填空题、选择题、判断题等多种题型的自动判题功能题库。
[0003]然而,许多在线教学平台在经过长期的发展与运营后,其题库在不断扩充的同时,也变得不断臃肿起来。大量的题目、大量的数据,逐渐令老师、学生、平台的管理者焦头烂额。目前,几乎所有教学平台对题目的分类仅停留在学科或学科下的章节、知识点层面,这使得同一个知识点下存在许多题目,其内容间互相交叉,难易程度相近,所以目前的划分对含上百道的题目数规模的知识点是远远不够的。有些章节或知 ...
【技术保护点】
【技术特征摘要】
1.一种基于题意文本的同知识点试题分组系统,其特征在于,包括:题目获取模块,其用于获取教学平台后台的题目数据,并以语种和知识点划分题目,每道题目至少包括编号和题干信息;题目预处理模块,其用于针对同一知识点下的相同语种题目进行预处理,包括:获取同一知识点下相同语种题目的题干文本,并对获取的题干文本数据进行清洗,剔除题干文本重复的题目和题干文本缺失的题目;然后将题干文本分为若干个词汇,筛除停用词,得到各个题目的词汇集,所有题目的词汇集构成该知识点下的当前词汇表;标签化模块,其用于对部分题目打上相应的标签;所述的部分题目是根据当前词汇表中的词汇随机筛选得到的,所筛选的题目至少覆盖80%词汇表;多功能分组模块,其包括全自动分组的WSD-LDA子模块和带有用户偏好的半自动分组的独热随机森林子模块;所述的WSD-LDA子模块不考虑题目标签,其首先进行词嵌入并获取题目的句向量,将句向量预先分为小类,再将小类中的词汇合并,继续分为大类,生成分组结果;所述的独热随机森林子模块考虑题目标签,其首先将所有的题目进行独热编码,获得题目独热向量;然后采用带标签的题目独热向量训练独热随机森林模型;再利用训练好的独热随机森林模型对不带标签的题目独热向量进行分类,生成分组结果;分组存储模块,其用于读取多功能分组模块生成的分组结果,将题库中的题目按照分组结果进行分组存储;分组更新模块,其用于根据教学平台题库的更新,实现分组结果的自动更新。2.根据权利要求1所述的一种基于题意文本的同知识点试题分组系统,其特征在于,所述的分组更新模块,当对WSD-LDA子模块的题目分组结果进行更新时,将新加入的题目与同一知识点下相同语种题目共同作为待分组题目,经题目预处理模块处理后,通过WSD-LDA子模块重新分组,更新分组结果。3.根据权利要求1所述的一种基于题意文本的同知识点试题分组系统,其特征在于,所述的分组更新模块,当对独热随机森林子模块的题目分组结果进行更新时,获取新题目的独热向量,直接利用训练好的独热随机森林子模块确定新题目的类型,将新题目纳入到分组结果中,更新分组结果。4.根据权利要求3所述的一种基于题意文本的同知识点试题分组系统,其特征在于,当对独热随机森林子模块的题目分组结果进行更新之前,还包括:判断新题目词汇与知识点当前词汇表的出入,若新题目50%及其以上的词汇均不在该知识点下的当前词汇表内,则将新题目视为新题型,将其归置在“其他”类并可接受人工调控,待新题型积攒到一定数量后,将新题型和原有题目共同作为待分组题目,经题目预处理模块处理后,对独热随机森林子模块重新进行训练;否则,将新题目视为旧题型,根据新题目在当前词汇表中的词汇,得到新题目的独热向量,根据之前训练好的独热随机森林子模块确定新题目的类型。5.根据权利要求1所述的一种基于题意文本的同知识点试题分组系统,其特征在于,所述的WSD-LDA子模块中设置有WSD-LDA模型,所述的WSD-LDA模型包括词嵌入、DBSCAN聚类网络、拼接层和LDA聚类网络;首先通过词嵌入将每一个题目对应的词汇集中的词汇w
i
转化为词向量统计该词汇
w
i
在整个知识点下的频度p(w
i
),根据频度确定题目的句向量以及题目句向量之间的余弦距离,其中n表示该题目含有的总词汇数,a为超参数;然后通过DBSCAN聚类网络对余弦距离进行以最小包含点数为1的标准进行基于半径r的DBSCAN密度聚类,将题目预分为m个小类,其中第i个小类中包含了k
i
个题目,每个题目平均含有n
i
个词语;再通过拼接层将每个小类包含的k
i
个题目对应的词汇集进行合并,保留重复词汇;最后通过LDA聚类网络对m个长度为k
i
×
n
i
的语料进行再聚类,根据LDA主题模型的困惑度自动调整聚类数目为M,最终将题目再分为M个大类,其中第j个大类下有m
j
个小类,且6.根据权利要求1所述的一种基于题意文本的同知识点试题分组系统,其特征在于,所述的独热随机森林子模块中设置有独热随机森林模型,所述的独热随机森林模型包括独热编码层和随机森林网络;首先通过独热编码层对题目词汇表中每一个词汇进行独热编码,再对题目进行独热编码,所述的对题目进行独热编码为其所含...
【专利技术属性】
技术研发人员:陈建海,杨楠,沈睿,何钦铭,荣大中,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。