【技术实现步骤摘要】
一种基于TextCNN的学生线上学习行为检测方法及系统
[0001]本专利技术涉及行为检测
,旨在为线上学习平台提供辅助评价工具,尤 其是一种基于TextCNN的学生线上学习行为检测方法及系统。
技术介绍
[0002]线上网课成为疫情下学生继续接受教育的主要形式,许多优质课程发布在中 国大学MOOC(慕课)上。课程考核内容涉及单元测试、期末测试、视频学习 时长以及课程讨论。课程讨论计入考核,本意是培养学生独立思考的能力,鼓励 学生积极提问,与课程任课老师交流互动,帮助课程团队推进课程建设。但是, 以参与评论次数作为评定课程讨论分数的唯一标准,导致学生以得到分数为目 的,发表与课程无关的评论,使得课程讨论流于形式。不仅如此,为了提高老师 与学生互动的效率,助教需要花费大量时间识别和删除无效评论。为了以有效评 论数量来衡量课程讨论分数以及学生课程参与度,鼓励学生认真学习思考,提升 学生慕课学习效果,减少助教工作量,亟需一种方法及系统对慕课学生评论进行 分类,推进疫情常态化下慕课课程建设。
[0003]文本分类是自然 ...
【技术保护点】
【技术特征摘要】
1.一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述检测方法包括以下步骤;步骤S1、登入在线课堂,爬取学生的发言信息作为学习行为数据;步骤S2、对爬取所获数据预处理形成预处理数据;步骤S3、利用所述预处理数据预训练Skip
‑
gram模型;步骤S4、训练得到TextCNN分类模型;步骤S5、使用TextCNN分类模型对待测学生的线上学习行为进行识别;步骤S6、根据识别结果计算课程评论活跃指数以及每位学生的最终分数。2.根据权利要求1所述的一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述步骤S1采用Selenium和浏览器驱动相结合的方法爬取学生学习行为数据,具体为:首先,输入账号和密码以登录的状态进入在线课堂的评论区,根据最后一条评论的标签获取评论页面总页码;其次,根据页码构建URL浏览评论页面;最后,在每个评论页面中根据标签获取评论和对应的用户id,并保存为学习行为数据。3.根据权利要求1所述的一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述步骤S2包括以下步骤;步骤A1、从爬取所获数据中去除符号,具体为:将Unicode编码下的符号转化为空格;步骤A2、对去除符号后的数据进行分词处理,即使用开源的jieba分词器对所述去除符号的数据进行分词;步骤A3、从完成分词处理后的数据中去除停用词,即适当过滤停用词以避免识别偏差,其方法为加载停用词表,逐个字句在停用词表中查询,然后去除;所述停用词表包括中文语气词、助词及没有明显的实际意义的字词;步骤A4、建立打标签函数label(x)为经过上述步骤的评论数据标注标签,其中x为待标注的数据;筛选出未标注标签的数据中出现频率最高的、可以明确判断是否与课程相关的多个词语作为标签词语,将标签词语分为课程相关词语以及与课程无关词语两类;为包含这些词语的评论标注标签;含课程相关词语的评论标注为1,即有效评论,无关的词语标注为0,即无效评论;重复上述步骤,直到标注完所有评论;如果最后剩下的评论不足以寻找出标签词语,那么就逐个手动遍历,根据专家经验为评论打上标签;将标注好的数据80%划为训练集,20%为测试集。4.根据权利要求3所述的一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述筛选出未标注标签的数据中出现频率最高的、可以明确判断是否与课程相关的多个词语的数量为十个;所述课程相关词语包括“考试”、“单元测试”以及“作业”;所述课程无关词语包括“不咋地”、“吃”;所述停用词表包括“的”、“是”、“了”、“啊”;所述步骤A1中,在中文常用字符的范围u
′
\u4e00
′‑
u
′
\u9fff,使用字符替换方法去除符号。5.根据权利要求1所述的一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述步骤S3中的Skip
‑
gram模型包括输入层、隐藏层以及输出层;所述输入层的输入w
c
是词语经过one
‑
hot编码得到的矩阵,大小为V
×
1,V表示词汇表中单词的数量;所述one
‑
hot编码中代表词的那一维为1,其他均为0;所述隐藏层的权重矩阵W1是一个d
×
V的矩阵,由此通过公式W1w
c
可得到隐藏层的输出
v
c
,大小为d
×
1;所述输出层的权重矩阵W2是一个V
×
d的矩阵,通过公式W2v
c
以及softmax函数,可以得到V
×
1维的概率矩阵,V为词汇表中单词数量,表示输入词与每个单词表中每个词是上下文的概率;所述Skip
‑
gram模型用于预测输入词向量的上下文词语,预训练后得到的隐藏层权重矩阵W1即为后续步骤所需要的词向量查找表,也就是TextCNN模型嵌入层的权重。6.根据权利要求1所述的一种基于TextCNN的学生线上学习行为检测方法,其特征在于:所述步骤S4中,TextCNN模型分为以下几层:B1、嵌入层:嵌入层的输入为预处理后的评论数据,评论数据以one
‑
hot形式表示,大小为n
×
V,n为组成句子的词的最大数量,权重为步骤S3中预训练得到的隐藏层的权重的转置大小为V
×
d,二者相乘得到嵌入层的输出x
1:n
,大小为n
×
d;B2、卷积层:其使用多个不同大小的卷积核对所述x
1:n
进行卷积操作,以提取文本特征,每个卷积核的卷积操作的形式可以表示如下:y
i
=g(w
·
x
i:i+h
‑1+b),1≤i≤n
‑
h+1...
【专利技术属性】
技术研发人员:董晨,洪祺瑜,王泽鸿,陈羽中,张浩,熊乾程,
申请(专利权)人:福州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。