【技术实现步骤摘要】
一种基于双重特征和半监督学习的认知投入追踪方法
[0001]本专利技术涉及自然语言处理、教育数据挖掘领域,具体地说是一种基于双重特征和半监督学习的认知投入追踪方法。
技术介绍
[0002]认知投入是学习者为确保学习目标的实现,对学习所采用的方法与策略的选择以及对整个学习活动的监控与调节。学习者互动话语中的认知投入与其学习成效具有正相关性。认知投入追踪是一种评估学习者在互动讨论中的认知投入水平的研究。面向互动话语数据的认知投入追踪为深入洞察个人和群体的认知发展趋势以及优化学习过程带来了新的可能。
[0003]目前主要有以下两个领域的认知投入追踪方法:
[0004](1)基于监督学习的认知投入追踪方法
[0005]基于监督学习的认知投入追踪方法是从大量标记的文本训练数据中学习得到认知投入追踪模型,以推断讨论文本内隐含的认知投入水平的机器学习任务。基于监督学习训练方法生成的认知投入追踪模型由认知特征表示模块和认知推理模块组成,其依赖大量已知类别的样本调整认知投入追踪模型的参数。
[0006](2)基于半监督学习的认知投入追踪方法
[0007]基于半监督学习的认知投入追踪方法利用大量的未标记讨论文本数据以及少量的标记讨论文本数据,通过标记数据和未标记数据之间的标签传播来训练认知投入追踪模型,以完成认知投入追踪任务。目前常用的基于半监督学习的认知投入追踪方法大部分从讨论文本的语义层面来推理不同水平的认知投入。
[0008]尽管上述的认知投入追踪方法在过去的应用中表现出了不错的效果 ...
【技术保护点】
【技术特征摘要】
1.一种基于双重特征和半监督学习的认知投入追踪方法,其特征在于,包括以下步骤:(1)采集并清洗在线学习平台中学习者的讨论文本数据,标记其中10%
‑
40%的讨论文本数据作为带标签的文本数据;(2)对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标记数据集、无标记数据集以及增强的无标记数据集的构建;(3)提取标记数据集、无标记数据集以及增强的无标记数据集中所有讨论文本数据的BERT语义和LIWC认知双重特征;(4)将每一条讨论文本的双重特征进行融合,获得融合后的新特征;(5)使用带有双重特征的标记数据集、无标记数据集以及增强的无标记数据集训练认知投入追踪模型。2.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(1)中采集、清洗和标记数据的具体包括:(1
‑
1)通过爬虫、或在线学习平台后台数据获取方式获取初始的讨论文本数据;(1
‑
2)通过正则匹配的方式清洗初始讨论文本数据中的HTML标签、无关字符,同时进行繁体字简化、剔除停用词操作;(1
‑
3)通过人工标注的方式标注所有数据中的10%
‑
40%的数据。3.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(2)中所述的“文本增强操作”具体包括:(2
‑
1)以英语作为中间语言,对每条未标记的讨论文本进行“中—英—中”的反向翻译,获得与未标记文本相同语义的文本数据;(2
‑
2)对反向翻译后的每条文本数据先进行分词,得到分好词的文本表示X={x1,x2,
…
,x
N
},其中x
i
表示文本中第i个位置的单词,N表示文本中单词的个数;然后计算出文本中每个词被替换的概率其中p为超参数,TFIDF(x
i
)为第i个词的TFIDF值,max
i
TFIDF(x
i
)为句子X中最大的TFIDF值;在每条文本数据中,对文本中的每个词按照其对应的替换概率T进行抽样,以确定该词是否进行TF
‑
IDF非核心词替换;(2
‑
3)把所有经过反向翻译的文本进行分词,以分词结果构建一个替换字典,字典中每个词被抽取的频率为对句子中需要进行TF
‑
IDF非核心词替换的词,从字典中按照概率p(w)抽取一个词进行替换,最终得到增强的无标记文本数据,其中,每条无标记文本对应一条增强的无标记文本数据。4.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(3)中提取讨论文本双重特征的方法具体包括:(3
‑
1)提取BERT语义特征:将所有数据集中的每条讨论文本输入到基于中文预料预训练的BERT模型中,选取最后一层输出序列中第一个向量作为讨论文本的语义特征表示,即:E
bert
={e1,e...
【专利技术属性】
技术研发人员:刘智,孔维政,彭晛,杨宗凯,刘三女牙,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。