System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于特征工程的学生阅读后认知层次识别方法和系统技术方案_技高网

一种基于特征工程的学生阅读后认知层次识别方法和系统技术方案

技术编号:41295156 阅读:7 留言:0更新日期:2024-05-13 14:44
本发明专利技术公开了一种基于特征工程的学生阅读后认知层次识别方法和系统。首先对收集的学生问题样本进行类别标注形成问题文本数据集;其次,使用排列重采样方法扩展样本数量,解决样本数量不均衡问题;在特征提取阶段人工构建关键词词典,得到样本关键名词、关键疑问词、关键认知动词三类关键特征;使用基于后验概率的特征选择对特征集合进行降维,减少同语义关键词的冗余数量。训练、推理时在每个样本使用拼接、临近的方法进行关键词特征融合,最终在BERT等深度分类模型获得了分类准确率提升,对学生阅读后的认知水平诊断效率提高。

【技术实现步骤摘要】

本专利技术属于图像识别、图像分类,具体涉及一种基于多视觉线索融合的在线学习投入识别方法,以期通过融合多视觉线索中隐含的心理与生理信息推断在线学习投入,为个性化学习和自适应干预等教育应用提供技术支撑,助力教育向精准化、个性化和智能化方向发展。本专利技术涉及自然语言处理、认知诊断、特征工程,特别是融合特征选择和深度模型来进行认知层次的文本分类,以通过学生阅读后提出的问题来反应学生对文章的认知程度。


技术介绍

1、随着信息技术和网络环境的发展,学生的数字阅读变得越来越频繁。然而,目前的数字阅读应用缺乏对学生阅读结果的评估,特别是对深度理解能力和高阶思维能力的评估。大多数认知计算系统关注语义web资源并提供生成内容,却很少有人根据学生在现实世界中的生成内容来诊断学生的认知水平,提高学生的认知能力。因此,个性化的认知诊断和反馈需求在数字阅读领域受到了广泛关注。学习结果的诊断和评价可以预测学生的阅读投入和深度理解。对于数字阅读,由于自然语言处理技术(nlp)可以帮助机器理解人类的语言和思维,认知诊断将更加智能和高效。

2、目前,有三种主流的方法对学生阅读文章后提出的问题进行认知诊断,并反应学生对文章的理解深度,分别是基于规则的专家评价、基于特征工程的机器学习分类方法和基于深度学习的分类方法。专家评价是指学生在提出问题后,由专家对问题进行手动特征分析,并与原文进行对比,按照认知层次分类的理论进行认知诊断。这种方法过程由专家负责,其认知诊断的有效性受到不同专家、不同领域的文章影响。并且,在人工智能不断发展的今天,专家评价的成本越来越大。

3、基于特征工程的机器学习方法曾是文本分类的主流。特征工程首先建立特征库,对学生的问题文本进行特征提取后送入机器学习分类器,通常是朴素贝叶斯、决策树、随机森林。这些传统的机器学习方法在过去受到研究者的青睐,但是其依赖手动的特征选择,需要为每个领域的文章进行设计。基于深度学习方法要求研究者收集足够的数据并且每类数据的分布情况大致相等,然而现实是,根据布鲁姆的认知层次理论,学生很少提出具有高层次认知的问题,导致数据集类别分布不均衡,深度分类器难以平等地学习每一类别的特征。而且目前主流的深度学习分类器在这个复杂的问题文本情境下的识别准确率较低。


技术实现思路

1、为了克服上述现有认知层次识别技术在准确率上的的不足,本专利技术提供了一种融合深度学习和特征工程的认知层次识别方法。理论与方法结合,提升了认知层次识别的分类准确率。本方案在深度学习的基础上再进行特征选择和特征融合,以充分利用专家评价、特征工程和深度学习的优点。

2、为达到上述的技术目的,本认知层次识别方案如下:

3、步骤1,建立学生阅读后的问题文本数据集;

4、步骤2,使用特征工程方法,在收集的问题文本中提取关键词并扩充数据集规模;

5、步骤3,利用扩充后的数据集训练深度学习分类模型;

6、步骤4,使用训练好的深度学习分类模型进行学生阅读后问题认知层次分类。

7、进一步的,步骤2的具体实现方式如下:

8、步骤21,提供学生阅读文章后自拟的问题文本,人工标记问题的认知层次标签后,获得问题文本数据集;

9、步骤22,制定特征词典,提取问题文本中的关键词,将问题文本的关键词分为关键名词、关键疑问词、关键认知动词,得到基于关键词标注的问题文本数据集;

10、步骤23,使用排列重采样方法扩展步骤22中基于关键词标注的问题文本数据集中的问题文本的数量;

11、步骤24,根据步骤22得到的三种关键词,去重后构建三个不重复的关键词集合:关键名词集合kn、关键疑问词集合kq、关键认知动词集合kv;

12、步骤25,对每个关键词集合,使用基于后验估计的标签概率向量进行k-means聚类,以减少同语义关键词的冗余,聚类后得到若干个簇,人工选择每个簇的代表关键词。

13、进一步的,步骤23中排列重采样方法的具体实现过程如下;

14、(231)给定源问题文本s,排列重采样超参数n,重排列策略f,增强样本集合r={s};

15、(232)对源问题文本s进行分句处理,得到句列表ls;

16、(233)使用重排列策略f对ls进行操作;

17、(234)将ls重新组合为一段连续的文本s’;

18、(235)将s’放入增强样本集合r中;

19、(236)重复(232)-(235),直到r的长度达到n;

20、(237)返回r;

21、重排列策略f有两种:其一是把ls的元素全排列;其二是随机交换两个元素的位置。

22、进一步的,步骤24中去重的实现方式如下;

23、(241)给定一个行样本集,有以下字段:问题文本t,三个关键词标签kn,kq,kv,认知层次类别标签y,初始化空集合关键名词集合kn、关键疑问词集合kq、关键认知动词集合kv,关键词匹配策略f’;

24、(242)对于每行数据,如果关键词字段非空,则加入相应关键词集合,跳到(245);

25、(243)如果关键词字段为空或t为要推理的文本,则对t进行jieba分词,得到词列表ls’;

26、(244)对于ls’的每个词w,与已构建的kn,kq,kv使用策略f’匹配,若匹配,则将其匹配的字段值设为w;

27、(245)重复(242)-(244),直到每行数据都进行处理;

28、(246)返回kq,kn,kv;

29、匹配策略f’有两种:正则匹配和向量化相似度。

30、进一步的,步骤25的具体实现方式如下;

31、(251)给定三个特征集合kn,kq,kv;

32、(252)对所有集合的关键词和样本标签进行统计,得到每个关键词的类别概率后验估计向量v,v的维度和类别数相同;

33、(253)在关键词中,挑选几个最代表该类别特征的关键词k,其对应的特征向量v投入特征空间;

34、(254)对于每个关键词向量v,使用余弦相似度度量和k-means聚类算法对所有向量进行聚类;

35、(255)根据聚类结果,为每个关键词簇挑选最符合类别的关键词k’,簇内其他关键词忽略;

36、(256)返回k’。

37、进一步的,设两个向量分别是v1,v2,则两者的余弦相似度定义为:

38、

39、当两向量方向接近一致,余弦相似度为1;方向接近不一致,余弦相似度接近-1。

40、进一步的,利用获取的特征空间对样本进行特征融合增强,具体地:

41、(1)给定特征空间kn,kq,kv;新的问题文本s”;关键词k’;特征融合策略f”;

42、(2)若关键词k’非空,则使用策略f将新的问题文本s”和关键词k’融合,得到特征增强的文本s”’;

43本文档来自技高网...

【技术保护点】

1.一种基于特征工程的学生阅读后认知层次识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤2的具体实现方式如下:

3.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤23中排列重采样方法的具体实现过程如下;

4.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤24中去重的实现方式如下;

5.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤25的具体实现方式如下;

6.如权利要求5所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:

7.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤4中,推理新的问题文本时,使用正则匹配的方式和向量化相似度方式提取新的问题文本的三种关键词,并将其投入聚类空间,使用其簇的代表关键词代替原文本的关键词后,与新的问题文本进行特征融合,送入训练好的深度学习分类模型中,以推理学生阅读后问题认知层次。

8.如权利要求7所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:利用获取的特征空间对样本进行特征增强,具体地:

9.如权利要求7或8所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:特征融合的方式包括:尾部融合和临近融合。

10.一种基于特征工程的学生阅读后认知层次识别系统,其特征在于,包括如下模块:

...

【技术特征摘要】

1.一种基于特征工程的学生阅读后认知层次识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤2的具体实现方式如下:

3.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤23中排列重采样方法的具体实现过程如下;

4.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤24中去重的实现方式如下;

5.如权利要求2所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:步骤25的具体实现方式如下;

6.如权利要求5所述的一种基于特征工程的学生阅读后认知层次识别方法,其特征在于:

7.如...

【专利技术属性】
技术研发人员:魏艳涛崔咚咚董银锋李秀晗刘巧伶徐琦高振康胡欣
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1