本发明专利技术涉及基于半监督学习的大规模网络开放课程退课预测算法,首先从慕课网站获取用户的学习日志文件,获取的用户一部分构成测试样本集,另一部分构成训练样本集;其次根据用户的学习日志文件统计训练样本集中所有样本的行为特征,得到最能表达训练样本集中所有样本共有特性的n种行为特征;第三根据n种行为特征采用半监督学习方法获得R种分类器;第四使用测试样本集对R种分类器的标注准确率进行测试,选出标注准确率最高的分类器,最后将任意一个未标记的用户的行为特征输入上述分类器,即可对给用户进行标记。该算法只需要使用较少的标记样本即可,减少了对样本进行标注花费的大量人力和物力,不但节约了预测成本,而且预测准确率也提高了。
【技术实现步骤摘要】
本专利技术涉及计算机与信息技术,具体涉及一种基于半监督学习的大规模网络开放课程退课预测算法。
技术介绍
Web2.0及云计算等技术的成熟给教育信息化提供了新的契机,大型在线公开课程(MOOC,又称慕课)便是互联网应用创新的产物。随着edx、coursera及udacity等MOOC网站的兴起以及MIT,Stanford等大学相继在MOOC平台开设课程,MOOC受到了越来越多的关注与认同。MOOC依托互联网,为大量的学生提供教育诸如答题,考试,看视频等教育体验,并能够让学生利用网络论坛等形式协同学习。并且MOOC具备的开放性特点,使得MOOC为不同学习背景的学生提供学习机会。尽管MOOC与传统教育相比拥有其独特的优点,但是MOOC的学习者群体具有较大的差异性。这种差异性主要体现在教育背景与教育动机上,如有的学生仅仅为了获取某一个知识点而注册某门课程,并且由于退出MOOC课程的代价较低,这就导致学习者的退课率过高。许多教育者指出MOOC的高退课率是一种普遍的现象,如果不及时采取对应措施将导致MOOC平台的发展受到限制。对学生退出因素的分析不仅可以帮助MOOC改进平台的建设,而且可以通过一些,提高学生的留存率,从而保证课程的有序进行。因此,通过建立模型对学生的退课行为进行预测可以帮助MOOC达到更好的教学效果。MOOC退课预测的价值短期价值:通过判定一个用户是否退课,可以辅助教师或者系统对可能退课的用户进行干预,降低他们退课可能。长期价值:分析课程性质与退课率的关系,设计出退课率较低的课程,提高MOOC课程的质量。现有的预测算法主要有两种,一种是对学生的一些行为进行跟踪,如果对学生作业查询行为、视频观看行为、其他资源获取行为等进行跟踪,统计这些行为出现的次数,从而判断预测学生是退课或存留。这种预测算法存在如下缺陷:首先,使用监督型学习,在大量标注样本集上训练一个模型,但是样本标签的获取代价非常大这主要体现在:第一样本数量大,第二样本标注需要花费非常多的人力和时间,并且标记样本需要专业人员进行;其次,该预测算法使用的特征是一种概括性特征,无法对退课学生进行准确刻画,因此,预测准确性较低。另一种预测算方法是根据每周的退课率来推算该门课程的最终退课率,这种预测方法虽然能预测某一门课的退课率,但是无法针对具体的学生或用户进行判断,即无法判断是哪些学生或用户退课。
技术实现思路
针对现有技术存在的上述问题,本专利技术的目的是一种可以准确判断某个用户退课或存留大规模网络开放课程退课预测算法。为实现上述目的,本专利技术采用如下技术方案:基于半监督学习的大规模网络开放课程退课预测算法,包括如下步骤:S1:从MOOC网站获取用户的学习日志文件,获取的用户一部分构成测试样本集,另一部分构成训练样本集,其中测试样本集中的测试样本全部是已标记样本,该训练样本集中包括未标记样本和已标记样本,所有未标记样本构成未标记样本集,所有已标记样本构成标记样本集;S2:根据用户的学习日志文件统计训练样本集中所有样本的行为特征,得到最能表达训练样本集中所有样本共有特性的n种行为特征;设某一课程的课程持续时间为K周;设Ui={U(i,1),...,U(i,j),...,U(i,n)本文档来自技高网...
【技术保护点】
基于半监督学习的大规模网络开放课程退课预测算法,其特征在于,包括如下步骤:S1:从MOOC网站获取用户的学习日志文件,获取的用户一部分构成测试样本集,另一部分构成训练样本集,其中测试样本集中的测试样本全部是已标记样本,该训练样本集中包括未标记样本和已标记样本,所有未标记样本构成未标记样本集,所有已标记样本构成标记样本集;S2:根据用户的学习日志文件统计训练样本集中所有样本的行为特征,得到最能表达训练样本集中所有样本共有特性的n种行为特征;设某一课程的课程持续时间为K周;设Ui={U(i,1),....,U(i,j),....,U(i,n)},Ui表示训练样本集中的第i个样本,U(i,j)={(U(i,j)1,....U(i,j)k....U(i,j)K)},U(i,j)表示训练样本集中第i个样本的第j种行为特征向量,U(i,j)k表示第i个用户的第j种行为特征在课程持续时间的第k周出现的次数;S3:从n种行为特征中随机选取m种行为特征,并采用下述方式获得R种分类器,其中,m≤n,R=Cnm=n!m!(n-m)!,r=1,2,3...R;]]>R种分类器的获得方式如下:S301:设r=1;S302:j=1;S303:v=1;S304:设Prj(C|U(i,j))为训练样本集中第i个样本在第j种行为特征下被标注为C的概率,其中,被标注C=0的样本表示存留用户,被标注C=1的样本表示退课用户;S305:选择未标记样本集中第j种行为特征下的所有未标记样本,第j种行为特征下所有未标记样本形成的集合Uj,分别计算集合Uj中每个未标记样本的Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k),其中v=1,2,...,|Uj|,|Uj|表示集合Uj中样本的总数;Prj(C=0|U(v,j))=Prj(U(v,j)|C=0)·Prj(C=0)Prj(U(v,j))---(1);]]>Prj(C=0)=|Lj,C=0||Uj|+|Lj|---(1a);]]>其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本的总数,Lj表示第j种行为特征下所有已标注样本形成的集合,|Lj|表示集合Lj中样本的总数,|Uj|+|Lj|表示第j种行为特征下训练样本集中样本的总数;Prj(U(v,j)|C=0)=Prj(U(v,j)1|C=0)·Prj(U(v,j)2|C=0),..., (1b);Prj(U(v,j)k|C=0),...Prj(U(v,j)K|C=0)Prj(U(v,j)k|C=0)=|Lj,C=0(U(v,j)k)||Lj,C=0|---(1b-1);]]>其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本的总数,|Lj,C=0(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=0的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本的总数;Prj(C=1|U(v,j))=Prj(U(v,j)|C=1)·Prj(C=1)Prj(U(v,j))---(2);]]>Prj(C=1)=|Lj,C=1||Uj|+|Lj|---(2a);]]>其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本的总数;Prj(U(v,j)|C=1)=Prj(U(v,j)1|C=1)·Prj(U(v,j)2|C=1),..., (2b);Prj(U(v,j)k|C=1),...Prj(U(v,j)K|C=1)Prj(U(v,j)k|C=1)=|Lj,C=1(U(v,j)k)||Lj,C=1|---(2b-1);]]>其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本的总数,|Lj,C=1(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=1的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本的总数;Prj(U(v,j))=P(U(v,j)|C=0)·P(C=0) (3);P(U(v,j)|C=1)·P(C=1)输出Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k);S306:令v=v+1;S307:当v>|Uj|时,执行下一步,否则返回步骤S304;S308:max{Prj(C=0|U(v,j))}=max{Prj(C=0|U(v,j)),v=1,2,3...uj},将max{Prj(C=0|U(v,j))}对应的未标记样本从集合Uj中剔除,同时将max{Prj(C=0|U(v,j))}对应的未标记样本移入集合Lj,并将max{Prj(C=0|U(v,j))}对应的未标记样本标注C=0;max{Prj(C=1|U(v,j))}=...
【技术特征摘要】
1.基于半监督学习的大规模网络开放课程退课预测算法,其特征在于,
包括如下步骤:
S1:从MOOC网站获取用户的学习日志文件,获取的用户一部分构成测
试样本集,另一部分构成训练样本集,其中测试样本集中的测试样本全部是
已标记样本,该训练样本集中包括未标记样本和已标记样本,所有未标记样<...
【专利技术属性】
技术研发人员:江峰,李文涛,
申请(专利权)人:重庆工商职业学院,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。