一种基于双重特征和半监督学习的认知投入追踪方法技术

技术编号:34633942 阅读:10 留言:0更新日期:2022-08-24 15:06
本发明专利技术涉及自然语言处理、教育数据挖掘领域,提供一种基于双重特征和半监督学习的认知投入追踪方法,包括采集、清洗在线学习平台中学习者的讨论文本数据,并标记其中10%

【技术实现步骤摘要】
一种基于双重特征和半监督学习的认知投入追踪方法


[0001]本专利技术涉及自然语言处理、教育数据挖掘领域,具体地说是一种基于双重特征和半监督学习的认知投入追踪方法。

技术介绍

[0002]认知投入是学习者为确保学习目标的实现,对学习所采用的方法与策略的选择以及对整个学习活动的监控与调节。学习者互动话语中的认知投入与其学习成效具有正相关性。认知投入追踪是一种评估学习者在互动讨论中的认知投入水平的研究。面向互动话语数据的认知投入追踪为深入洞察个人和群体的认知发展趋势以及优化学习过程带来了新的可能。
[0003]目前主要有以下两个领域的认知投入追踪方法:
[0004](1)基于监督学习的认知投入追踪方法
[0005]基于监督学习的认知投入追踪方法是从大量标记的文本训练数据中学习得到认知投入追踪模型,以推断讨论文本内隐含的认知投入水平的机器学习任务。基于监督学习训练方法生成的认知投入追踪模型由认知特征表示模块和认知推理模块组成,其依赖大量已知类别的样本调整认知投入追踪模型的参数。
[0006](2)基于半监督学习的认知投入追踪方法
[0007]基于半监督学习的认知投入追踪方法利用大量的未标记讨论文本数据以及少量的标记讨论文本数据,通过标记数据和未标记数据之间的标签传播来训练认知投入追踪模型,以完成认知投入追踪任务。目前常用的基于半监督学习的认知投入追踪方法大部分从讨论文本的语义层面来推理不同水平的认知投入。
[0008]尽管上述的认知投入追踪方法在过去的应用中表现出了不错的效果,但是它们都存在各自的不足。基于监督学习的认知投入追踪方法在标注数据量少的情况下推理精度低,训练一个性能优越的认知投入追踪模型往往需要依赖大量的标注数据。但是标注数据往往是难以获得的,而且数据标注过程费时费力。基于半监督学习的认知投入追踪方法可以利用少量标注文本数据和大量的无标注文本数据进行推理,但是大部分基于半监督学习的认知投入追踪模型只从文本数据的语义层面推理,忽略了文本数据认知层面的特征对推理结果的影响。

技术实现思路

[0009]针对现有技术的以上缺陷或改进需求,本专利技术提供一种基于双重特征和半监督学习的认知投入追踪方法,该方法从认知和语义两个方面捕获讨论文本特征,同时使用少量的标注文本数据和大量的无标注文本数据训练认知投入追踪模型。使用该方法能够更准确地获得学习者互动话语中蕴含的认知投入状态,从而帮助教师更有针对性的干预学习者的行为以及为优化学习过程提供支持。
[0010]本专利技术的目的是通过以下技术方案实现的。
[0011]一种基于双重特征和半监督学习的认知投入追踪方法,包括以下步骤:
[0012](1)采集并清洗在线学习平台中学习者的讨论文本数据,标记其中小部分讨论文本数据作为带标签的文本数据;
[0013](2)对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标记数据集、无标记数据集以及增强的无标记数据集的构建;
[0014](3)提取标记数据集、无标记数据集以及增强的无标记数据集中所有讨论文本数据的BERT语义和LIWC(Linguistic Inquiry and Word Count)认知双重特征;
[0015](4)将每一条讨论文本的双重特征进行融合,获得融合后的新特征;
[0016](5)使用带有双重特征的标记数据集、无标记数据集以及增强的无标记数据集训练认知投入追踪模型。
[0017]由上述本专利技术提供的技术方案可以看出,该方法不需要大量的标注文本数据,仅使用少量的标注文本和大量的无标注文本即可训练认知投入追踪模型,减轻了标注文本的时间和人力的耗费。同时,该方法从语义和认知两个维度推理文本数据的认知投入水平,弥补了传统认知投入追踪模型的单维性的弊端。
附图说明
[0018]图1为本专利技术提供的基于双重特征和半监督学习的认知投入追踪方法的流程图。
[0019]图2为本专利技术提供的认知投入追踪模型训练架构图。
具体实施方式
[0020]为了更清楚、完整地描述本专利技术的目的和技术方案,下面结合本专利技术实施例中的附图,对本专利技术的细节做详细说明。所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0021]请参阅图1、图2所示,本专利技术实施例提供一种基于双重特征和半监督学习的认知投入追踪方法,包括以下步骤:
[0022]A000:采集并清洗在线学习平台中学习者的讨论文本数据,标记其中10%

40%的讨论文本数据作为带标签的文本数据。
[0023]本实施例中,首先通过爬虫的方式获取到华中师范大学云课堂课程《心理学基础》中的7510条学习者的讨论文本。
[0024]然后基于Python完成数据清洗操作,该操作包括使用Python中的re模块编辑正则表达式,用于匹配并删除初始讨论文本数据中的HTML标签、无关字符等脏数据,使用hanziconv模块将文本数据中的繁体文本简化,依据哈工大的停用词字典匹配并剔除文本数据中的停用词。
[0025]最后通过人工标注的方式标注所有数据中的10%

40%的数据。本实施例中,为了测试认知投入追踪模型的性能,标注所有文本数据,并按照9:1的比例划分为训练集和测试集。其中,训练集中选取10%的数据作为标注数据,剩余90%的数据忽略其标签,作为无标注数据使用。
[0026]A001:对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标
记数据集、无标记数据集以及增强的无标记数据集的构建。
[0027]在本实施例中,首先以英语作为中间语言,将每条未标记的讨论文本进行“中—英—中”的反向翻译,获得与未标记文本相同语义的文本数据。
[0028]然后对反向翻译后的每条文本数据先进行分词,得到分好词的文本表示X={x1,x2,

,x
N
},其中x
i
表示文本中第i个位置的单词,N表示文本中单词的个数。然后计算出文本中每个词被替换的概率其中p为超参数,TFIDF(x
i
)为第i个词的TFIDF值,max
i
TFIDF(x
i
)为句子X中最大的TFIDF值。在每条文本数据中,对文本中的每个词按照其对应的替换概率T进行抽样,以确定该词是否进行TF

IDF非核心词替换。
[0029]最后把所有经过反向翻译的文本进行分词,以分词结果构建一个替换字典,字典中每个词被抽取的频率为对句子中需要进行TF

IDF非核心词替换的词,从字典中按照概率p(w)抽取一个词进行替换,最终得到增强的无标记文本数据。其中,每条无标记文本对应一条增强的无标记文本数据。
[0030]A002:提取标记数据集、无标记数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重特征和半监督学习的认知投入追踪方法,其特征在于,包括以下步骤:(1)采集并清洗在线学习平台中学习者的讨论文本数据,标记其中10%

40%的讨论文本数据作为带标签的文本数据;(2)对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标记数据集、无标记数据集以及增强的无标记数据集的构建;(3)提取标记数据集、无标记数据集以及增强的无标记数据集中所有讨论文本数据的BERT语义和LIWC认知双重特征;(4)将每一条讨论文本的双重特征进行融合,获得融合后的新特征;(5)使用带有双重特征的标记数据集、无标记数据集以及增强的无标记数据集训练认知投入追踪模型。2.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(1)中采集、清洗和标记数据的具体包括:(1

1)通过爬虫、或在线学习平台后台数据获取方式获取初始的讨论文本数据;(1

2)通过正则匹配的方式清洗初始讨论文本数据中的HTML标签、无关字符,同时进行繁体字简化、剔除停用词操作;(1

3)通过人工标注的方式标注所有数据中的10%

40%的数据。3.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(2)中所述的“文本增强操作”具体包括:(2

1)以英语作为中间语言,对每条未标记的讨论文本进行“中—英—中”的反向翻译,获得与未标记文本相同语义的文本数据;(2

2)对反向翻译后的每条文本数据先进行分词,得到分好词的文本表示X={x1,x2,

,x
N
},其中x
i
表示文本中第i个位置的单词,N表示文本中单词的个数;然后计算出文本中每个词被替换的概率其中p为超参数,TFIDF(x
i
)为第i个词的TFIDF值,max
i
TFIDF(x
i
)为句子X中最大的TFIDF值;在每条文本数据中,对文本中的每个词按照其对应的替换概率T进行抽样,以确定该词是否进行TF

IDF非核心词替换;(2

3)把所有经过反向翻译的文本进行分词,以分词结果构建一个替换字典,字典中每个词被抽取的频率为对句子中需要进行TF

IDF非核心词替换的词,从字典中按照概率p(w)抽取一个词进行替换,最终得到增强的无标记文本数据,其中,每条无标记文本对应一条增强的无标记文本数据。4.按照权利要求1所述的基于双重特征和半监督学习的认知投入追踪方法,其特征在于步骤(3)中提取讨论文本双重特征的方法具体包括:(3

1)提取BERT语义特征:将所有数据集中的每条讨论文本输入到基于中文预料预训练的BERT模型中,选取最后一层输出序列中第一个向量作为讨论文本的语义特征表示,即:E
bert
={e1,e...

【专利技术属性】
技术研发人员:刘智孔维政彭晛杨宗凯刘三女牙
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1