领域自适应的深度知识追踪及个性化习题推荐方法技术

技术编号:24996316 阅读:21 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种领域自适应的深度知识追踪及个性化习题推荐方法,相关知识追踪方法包括:获取学生的历史答题记录数据与相应的习题数据,并划分为源领域和目标领域数据;对于源领域数据,使用深度学习方法训练源领域的知识追踪模型;根据源领域的知识追踪模型,使用迁移学习方法实现源领域到目标领域的迁移,从而实现目标领域数据的知识追踪。该方法运用深度学习和迁移学习的方法,能够将源领域训练好的知识追踪模型迁移到目标领域中去,解决了领域数量多需要训练大量模型的问题,同时也解决了领域数据量少无法训练得到一个可靠知识追踪模型的问题。再配合相应的个性化习题推荐方法,可以给学生推荐合适的练习题,给学生提供个性化的测试方案。

【技术实现步骤摘要】
领域自适应的深度知识追踪及个性化习题推荐方法
本专利技术涉及迁移学习领域和教育数据挖掘领域,尤其涉及一种领域自适应的深度知识追踪及个性化习题推荐方法。
技术介绍
当前的大数据和数据挖掘技术快速发展,尤其是在教育领域,在线教育系统不断的出现,知识追踪作为教育领域中基础且十分必要的任务,越来越重要。比如知识追踪的结果可以应用于个性化习题推荐,给学生推荐合适的练习题,来加强学生在知识点或者答题技巧上的熟练度,给学生提供个性化的测试方案。传统的知识追踪方法仅仅针对某个特定的学校或学科建立模型,并不能运用到其他不同的学校和学科。然而,在现实中有很多的学校、学科以及年级,为不同的学校、学科和年级分别建立不同的知识追踪模型,会耗费大量的人力和物力。同时,还有很多学校并没有足够的数据来训练模型。可见现有技术由于技术处理层面所存在的问题,无法获得较好的知识追踪模型,直接影响知识追踪的效果,进而影响到知识追踪结果的应用。
技术实现思路
本专利技术的目的是提供一种领域自适应的深度知识追踪及个性化习题推荐方法,可以很好的将一个领域(学科,学校,年级)上训练好的知识追踪模型迁移到另一个领域(学科,学校,年级)上,从而能够给学生推荐合适的练习题。本专利技术的目的是通过以下技术方案实现的:一种领域自适应的深度知识追踪方法,包括:获取学生的历史答题记录数据与相应的习题数据构成的数据集,并通过训练的自编码器,将数据划分为源领域和目标领域数据;对于源领域数据,使用深度学习方法训练源领域的知识追踪模型;根据源领域的知识追踪模型,结合目标领域数据使用迁移学习方法实现源领域到目标领域的迁移,从而实现目标领域数据的知识追踪。由上述本专利技术提供的技术方案可以看出,该方法运用深度学习和迁移学习的方法,能够将源领域训练好的知识追踪模型迁移到目标领域中去,解决了领域数量多需要训练大量模型的问题,同时也解决了领域数据量少无法训练得到一个可靠知识追踪模型的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种领域自适应的深度知识追踪及个性化习题推荐方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种领域自适应的深度知识追踪方法,如图1所示,包括:步骤1、获取学生的历史答题记录数据与相应的习题数据构成的数据集,并通过训练的自编码器,将数据划分为源领域和目标领域数据。学生的历史答题记录数据包含,学生对于每一习题的得分情况;习题数据包含了每一习题的文本数据。本专利技术实施例中,对于获取到的数据,首先通过常规方式进行数据清洗,滤除信息不完整的数据,从而得到一个数据集。然后,通过一个标准化单元,将数据使用统一的数学形式表示;学生的历史答题记录数据表示为:其中作为一条答题记录,包含第t道习题与相应的得分rt,t=1,2,...,T,T为习题总数;习题数据记为X={x1,x2,...,xT},xt表示第t道习题的文本,xt=(w1,w2,...,wL),wl表示习题文本中的第l个词,l=1,2,...,L,L表示文本的长度。之后,通过最小化重构误差,共同预训练一个自编码器,重构误差定义为:其中,表示wl的重构结果,表示x的重构结果;为了选择对目标领域有利的源领域样本,最小化如下目标函数,从而在数据集中筛选出一部分数据,构成源领域数据集,剩余数据则为目标领域数据集,目标函数定义为:其中,和分别表示源领域和目标领域的数据,和表示对应的重构数据,nS、nT分别表示源领域、目标领域的数据量,t、t′各自表示源领域和目标领域的习题序号;是一个指示器,它的每个元素表示源领域的数据选择还是不选择,1表示选择,0表示不选择;与都是通过前面的式子计算得到;π′e、πd′为自编码器中的编码器、解码器,实现方式将在后文进行介绍。表示正则化项,为了防止uS中的每个元素都变为零,定义为:其中,λ是正则化系数;的取值是根据重构误差来决定:步骤2、对于源领域数据,使用深度学习方法训练源领域的知识追踪模型。源领域的知识追踪模型主要包含:自编码器、两个神经网络、长短期记忆网络、以及线性层(输出层)。本专利技术实施例中,使用深度学习方法训练源领域的知识追踪模型,从而实现知识追踪。结合习题文本信息,并且引入猜测率和失误率两个教育的特征进行知识追踪。因为习题的文本包含了大量的信息,这些信息能够充分地反映习题的特征。因此为了能够得到更好的知识追踪效果,我们在知识追踪的过程中,利用习题的编码信息来表示每个习题。本步骤的自编码器与步骤1中自编码器类似,区别在于,本步骤的自编码器是在习题数据上通过无监督的方式训练得到,然后利用自编码器对习题数据的编码结果来表示相应习题;自编码器(步骤1的自编码器也是如下形式)表示为:encoder:q=πe(x)其中,πe、πd分别表示自编码器中的编码器、解码器;q表示习题的编码信息,x表示相应习题的文本,表示通过自编码器重构的习题文本得到的习题文本;通过与x之间的差异来训练自编码器。自编码器训练完毕后,对于输入的第t道习题的文本xt,获得对应的编码信息qt。本专利技术实施例中,编码器πe(以及步骤1中提到的编码器πe′)采用双向的LSTM(长短期记忆网络)模型实现,双向的LSTM模型表示为:其中,和是正反两个方向的LSTM模型的输出,wl表示第l个输入的单词,和分别是正反两个LSTM模型的待学习参数;将正反两个方向的LSTM模型的输出拼接成一个向量:通过池化操作获得习题表示qt,qt中的每一个元素的获取方法表示为:qti=max(η1i,η2i,...,ηLi)上式中,i表示第i个维度;原理是:一个习题有L个单词,每个单词ηl是一个n维的向量,这个习题qt也是一个n维的向量,计算方式是:qt中第i维,都是所有L个单词对应维度上的值的最大值。习题得分rt用1表示答对,0表示答错;通对习题表征qt拼接一个零向量:其中,是拼接操作,拼接两个向量,0=(0,0,...,0)是一个零向量,所有的元素全都为零。对于解码器πd(以及步骤1中提到的解码器πd′),为了简单起见,仅采用LSTM模型实现,表示为:其中,表示LSTM模型输出,Wdec和b本文档来自技高网...

【技术保护点】
1.一种领域自适应的深度知识追踪方法,其特征在于,包括:/n获取学生的历史答题记录数据与相应的习题数据构成的数据集,并通过训练的自编码器,将数据划分为源领域和目标领域数据;/n对于源领域数据,使用深度学习方法训练源领域的知识追踪模型;/n根据源领域的知识追踪模型,结合目标领域数据使用迁移学习方法实现源领域到目标领域的迁移,从而实现目标领域数据的知识追踪。/n

【技术特征摘要】
1.一种领域自适应的深度知识追踪方法,其特征在于,包括:
获取学生的历史答题记录数据与相应的习题数据构成的数据集,并通过训练的自编码器,将数据划分为源领域和目标领域数据;
对于源领域数据,使用深度学习方法训练源领域的知识追踪模型;
根据源领域的知识追踪模型,结合目标领域数据使用迁移学习方法实现源领域到目标领域的迁移,从而实现目标领域数据的知识追踪。


2.根据权利要求1所述的一种领域自适应的深度知识追踪方法,其特征在于,通过训练的自编码器,将数据划分为源领域和目标领域数据包括:
通过一个标准化单元,将数据使用统一的数学形式表示;学生的历史答题记录数据表示为:其中作为一条答题记录,包含第t道习题与相应的得分rt,t=1,2,...,T,T为习题总数;习题数据记为X={x1,x2,...,xT},xt表示第t道习题的文本,xt=(w1,w2,...,wL),,wl表示习题文本中的第l个词,l=1,2,...,L,L表示文本的长度;
通过最小化重构误差,共同预训练一个自编码器,重构误差定义为:



其中,表示wl的重构结果,表示x的重构结果;
最小化如下目标函数,从而在数据集中筛选出一部分数据,构成源领域数据集剩余数据则为目标领域数据集目标函数定义为:



其中,和分别表示源领域和目标领域的数据,和表示对应的重构数据,ns、nT分别表示源领域、目标领域的数据量,t、t′各自表示源领域和目标领域的习题序号;是一个指示器,它的每个元素表示源领域的数据选择还是不选择,1表示选择,0表示不选择;与都是通过前面的式子计算得到;π′e、πd′为自编码器中的编码器、解码器;

表示正则化项,定义为:



其中,λ是正则化系数;的取值是根据重构误差来决定:





3.根据权利要求1所述的一种领域自适应的深度知识追踪方法,其特征在于,
源领域的知识追踪模型包括:自编码器、两个神经网络、长短期记忆网络、以及线性层;
自编码器是在习题数据上通过无监督的方式训练得到,利用自编码器对习题数据的编码结果来表示相应习题;自编码器训练完毕后,对于输入的第t道习题的文本xt,获得对应的编码信息qt,对应的习题得分rt用1表示答对,0表示答错;通对习题表征qt拼接一个零向量:
其中,是拼接操作,拼接两个向量,0=(0,0,...,0)是一个零向量,所有的元素全都为零;
采用一个长短期记忆网络,每一时刻输入一个答题记录获得对应时刻的状态ht:












ht=ottanh(ct)
其中,i*,f*,c*,o*分别表示循环神经网络中的输入门、遗忘门、记忆单元和输出门,W*,b*表示相应门中的权重与偏置项;
同时,结合qt,引入猜测率和失误率两个特征进行知识追踪,描述为:
st=S(qt)
gt=G(qt)
其中,S和G分别表示学习失误率和猜测率的两个神经网络;
再结合失误率和猜测率,获得学生的知识状态:



其中,符号表示向量按元素乘;
基于学生的知识状态,通过一个线性层来预测相应学生未来在习题上的表现情况:



yt=sigmoid(Wout·αt+bout)
其中,αt表示adaptation函数的输出,Θadp表示adaptation函数的参数;yt表示sigmoid函数输出的预测结果...

【专利技术属性】
技术研发人员:刘淇陈恩红程松苏喻佟威
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1