基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法技术

技术编号:26506588 阅读:25 留言:0更新日期:2020-11-27 15:34
本发明专利技术提供一种基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,包括:步骤1:构建K12阶段的数学能力图谱,并构建能力点之间的概率联系;步骤2:生成题库,并打上能力点标签数据;步骤3:使用RNN+SortNet的方法来对学生的答题数据以及步骤1得到的数学能力图谱数据进行模型训练,得到学生动态的能力缺陷点排名预测,将当前能力点按掌握程度从低到高排序,从而发现学生在数学学科学习中的能力缺陷点。本方法能够有效定位K12阶段学生在数学学科的最细粒度缺陷能力点,从而有针对性的进行差缺补漏练习和巩固,迅速提升学习成绩和学习兴趣。

【技术实现步骤摘要】
基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法
本专利技术涉及数学能力缺陷点检测
,具体涉及基于机器学习的中小学数学能力点缺陷极小样本高精度检测方法。
技术介绍
数学学科在中小学生学习中占有非常重要的基础性地位,甚至可以说直接决定了一名学生的综合学习能力和考试成绩的高低,因而受到学校、老师、家长和学生的广泛重视。另一方面,数学也是学生普遍反映较难的科目,知识点较为抽象和多变,相同知识点有很多种呈现形式和难度值,教师和学生均不易加以变通、总结和归纳。导致虽然从小学一年级到高中三年级(以下简称K12阶段),绝大多数学生在数学学科耗费了大量的时间与精力,反复进行大量练习甚至课外补习,收效却不明显。因为无法抓住真正薄弱的知识点(后文称为缺陷点)进行个性化的重点突破,只能是万人一面做大量重复学习,不仅浪费时间,还挫伤了学习积极性与信心。所以准确捕捉学生在数学学科学习中的知识缺陷点不仅可以有效提升学习效率、成绩,而且是个性化学习和兴趣导向学习的基础。传统学习情境下,有针对性的查漏补缺只能存在于非常有经验的教师组织的小班或1对1(1v1)教学场景,成本高昂,而且由于名师远远供不应求,只能牺牲教育的公平性和普惠性来满足少数城市和富裕家庭的需求,对于数学这一关乎未来国民整体科技素养的基础学科而言,与我国义务教育的宗旨背道而驰。随着近二十年来人工智能特别是其中机器学习算法的爆发式发展,从技术角度首次具备了全民“因材施教”、“千人千面”和兴趣驱动学习的可能性。蓬勃发展的在线教学和电子化学习、考试开始让学习数据线上化和结构化,从而形成可被算法理解和重构的“学习大数据”,让精细化和个性化学习成为可能。并且,由于数学学科的标准化和结构化特点,是特别适合通过大数据和机器学习算法来辅助学习的学科,所以本专利技术选择数学作为学科突破口,并保留对其他K12学科的延展可能性。在此,本专利技术须重点解决的问题是:如何仅利用少量学习反馈数据(极少样本量),高精度(高准确率和召回率)地定位学生在数学学科中的能力缺陷点。为了更好介绍本专利技术对前沿机器学习方法的优化和创新,以及如何更好的应用于本专利技术的目标问题,首先概要介绍相关技术背景,特别是其中涉及的机器学习算法。A.最细粒度知识图谱构建(KnowledgeGraph)通常的方法是首先根据专业知识构建离散的知识点集合以及先后顺序关系。再运用自然语言处理(NLP)特别是命名体识别(NER)技术来抽取普通学习文本中的核心概念,从而进一步发掘知识点间的概率联系。能力点间的概率关系可以通过题目和能力节点构成的二分网络图上的随机漫步方法来迭代计算和不断优化。B.排序学习(LearningtoRank)和时序神经网络(RNN)很多机器学习问题的目标都可以抽象为排序问题,从搜索到推荐再到自动问答系统,本质上都是给定二元组的数据列表,按照某种标准(通常是两者相关性)对这组列表进行排序。排序学习在处理这类问题的优势在于目标函数与目标的一致性,也即我们只关心相对顺序而并不关心具体的数值,换句话说排序学习能够产生相对其他方法更准确的顺序排列。而学生知识薄弱环节的定位正可以看成一个按掌握度从弱到强的排序问题。同时因为学生的学习具有连续性和难以逆转的特征,将对同单个学生的动态模型预测看成一个有机的时序整体会有助于提高模型的准确性和稳定性,同时缓解数据的稀疏性。所以我们融合了深度学习中的时序神经网络(RNN)模型来对连续多次测试数据进行建模,并融合排序学习模型形成一个统一的新模型,实验表明,新模型效果相对传统模型更准确。术语解释项目反应理论(IRT),自适应学习,深度学习(DeepLearning),知识图谱(Knowledgegraph)和能力图谱(AbilityGraph),深度能力跟踪(DeepKnowledgeTracing),极小样本学习(Few-ShotLearning),排序学习(LearningtoRank),排序网络(SortNet),时序神经网络(RNN),排序效果评估指标NDCG。1现有技术的技术方案“修复理论”主张最好的帮助孩子提高的方法是依靠理解他们犯错误的根源性原因(Brown&VenLehn,1980)。当然,定位错误根源的前提条件是我们对易犯的错误点有清晰而准确的分类(能力图谱),如(Feldmanetal.2018)文献中所定义的那样。遗憾的是,在本文之前尚未有关于K12阶段数学能力的精确能力图谱,要求是图谱内的节点具有不可再分性,也就是“原子级别”的知识点,这也是我们要解决的首要问题。下文介绍的其他方法都基于比较粗粒度的能力点。与一般产品缺陷点的检测不同,学生能力缺陷点既不可见也难以准确定量描述,并且处于动态变化的过程中。另一方面,由于知识点的内在关联性,缺陷点之间往往是关联的,这其实给我们相对准确定位提供了极大的便利。这也是我们提出的方法核心创新之处。以下是一些代表性的方法,篇幅关系,我们将重点介绍代表性的IRT模型和DKT模型。A.教师人工分析B.问题规则库方法(Buggyrules)(Selent&Heffeman,2014)C.ItemResponseTheory(IRT,项目反应理论)&Multi-dimensionalItemResponseTheroy(MIRT)D.BeyesianKnowldegeTracing(BKT)E.DeepKnowledgeTracing(DKT)IRT模型的功能是预测一名学生答对某道题目的概率,使用了经典的Logistic回归的方法(假定回答正确的概率符合正态分布)。BayesianKnowledgeTracing(BKT)和DeepKnowledgeTracing(DKT,Piech&Bassen,etc.,2015)。BKT将学生回答问题的结果看成时间序列,并通过贝叶斯模型(Beyesianmodel)去拟合时序关系,DKT则更进一步的,利用循环神经网络(RNN)来更准确捕捉通过连续测试反馈的缺陷点之间的时序关联性,并且取得了更好的精度。然而无论是IRT及其变种,还是比较新的BeyesianKnowledgeTracing和DeepKnowledgeTracing,都无法很好利用能力图谱及能力点间的概率信息,从而造成数据稀疏和结果不准确。同时,我们首次将融合了时序网络的排序学习(LearningtoRank)方法运用于K12缺陷点定位和排序问题,能准确的反应学生在能力点上的缺陷度排序情况,从而让后续的个性化学习更有针对性。2现有技术的缺点目前已知的K12数学知识图谱(含商业化系统),普遍存在的问题有两点:1.知识点划分不够细;2.缺乏构建知识点间的联系的自动化方法。然而要想准确定位学生的知识能力缺陷,首要条件是是构建细粒度、互联互通的、与题库打通的能力图谱。能力结构图谱、标签化的题库和学生的回答构成了三层结构化数据,图谱是这个结构的基础和核心。让我们再次回到数学本文档来自技高网...

【技术保护点】
1.基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,包括如下步骤:/n步骤1:构建K12阶段的数学能力图谱,并构建能力点之间的概率联系;/n步骤2:生成题库,并打上能力点标签数据;/n步骤3:使用RNN+SortNet的方法来对学生的答题数据以及步骤1得到的数学能力图谱数据进行模型训练,得到学生动态的能力缺陷点排名预测,将当前能力点按掌握程度从低到高排序,从而发现学生在数学学科学习中的能力缺陷点。/n

【技术特征摘要】
1.基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,包括如下步骤:
步骤1:构建K12阶段的数学能力图谱,并构建能力点之间的概率联系;
步骤2:生成题库,并打上能力点标签数据;
步骤3:使用RNN+SortNet的方法来对学生的答题数据以及步骤1得到的数学能力图谱数据进行模型训练,得到学生动态的能力缺陷点排名预测,将当前能力点按掌握程度从低到高排序,从而发现学生在数学学科学习中的能力缺陷点。


2.如权利要求1所述的基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,所述步骤1中的构建K12阶段的数学能力图谱,具体步骤是:
步骤1.1:通过解析K12阶段的最细粒度的数学能力,获得K12阶段的数学能力图谱,包括若干个能力点;
步骤1.2:能力点之间的概率联系构建:给定标注好能力点的题库Q={q1,q2,...,qn},使用随机游走方法迭代获得最佳网络概率联接参数。


3.如权利要求2所述的基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,所述步骤1.2中的能力点之间的概率联系构建,具体步骤包括:标注好的知识点与题目构成了二分图,即知识点构成了一组节点集合,题目构成了另一组节点集合,有且只有知识点节点和题目节点之间有连接的边,借鉴蚁群信息素+随机游走的方法,采用一种计算二分图节点相似性的方法,来计算原本没有联系的知识点间的概率关联;
节点ui代表知识点,vj代表题目,如果题目vj被标注为与ui知识点相关,则ui与vj有边相连;

为第t轮迭代,知识点ui带有的信息素种类及浓度;为第t轮迭代,题目vj带有的信息素种类及浓度;
初始化阶段,和均为长度为|U|的矢量,|U|即知识点数;
通过题目与知识点之间关联的多次传播和迭代,可以得到每个知识点节点上携带的所有其他知识点信息素种类和数量,代表了该知识点与其他知识点的联系及强弱,从而构成一幅带有转移概率联接的知识图谱。


4.如权利要求1所述的基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,所述步骤2中的生成题库,并打上能力点标签数据,具体步骤包括:
步骤2.1:生成题库:根据互联网上公开的各年度的各年级数学考试真题以及部分用作机器学习的K12题库,经过扫描和数字化之后,获得12个学年段的题库;
步骤2.2:对题库中的题全部打上能力点标签数据。


5.如权利要求1所述的基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,所述步骤3的发现过程,具体步骤如下:
步骤3.1:数据准备和预处理,包括能力点激活预处理和训练和测试数据准备;
步骤3.2:模型训练,具体包括:




训练过程,预测过程
其中Q为问题相关的特征集合,qi=[t1,t2,...,tm,qscorei,yi]是模型的输入数据,T为知识点相关的特征集合,tj为表征该题是否涉及知识点j,取值0代表不涉及,1代表涉及,qscorei代表题目的难度值,取值范围(0,1),越大代表题目越难,yi是学生回答的结果,正确为1,错误为0;是用户最近测评的结果,其中ui为最近几次评测的按主题缺陷度排序结果;是预测结果,包含m个待排序主题的向量,其中按掌握程度从低到高排序为:r1<r2<…<rm,是用于训练排序,包含m个待排序主题的向量,其中按掌握程度从低到高排序为:s1=s2=…=sk<sk+1=sk+2=…=sm,被标记为缺陷的k个知识点整体低于其余知识点;对于SortNet网络,正向传播公式为:



N>(<x,y>)=σ(∑i,i′wi,>hi(<x,y>)+wi′,>hi′(<x,y>)+b>),(6)
对于RNN网络,正向传播公式为:
ht=tanh(Whxxt+Whx′x′t+Whhht-1+bh),(7)
yt=σ(Wyhht+by),(8)
SortNet网络接收自变量输入数据,产生结果N>和N<,分别代表输入知识点k(x参数)缺陷值大于和小于知识点p(y参数)的概率,进而又作为RNN网络的输入参数,RNN进行3个周期的序列计算,输出o;o接近1代表k知识点的缺陷度大于知识点p,o接近-1代表k知识点的缺陷度小于知识点p;vxk,i和vyk,i为SortNet层待学习的联接权重,Whx和Whx′为RNN层待学习的联接权重,分别对应输入的N>和N<,Whh为待学习的隐含层...

【专利技术属性】
技术研发人员:吴湖
申请(专利权)人:武汉青忆辰科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1