基于文本分析及关联规则挖掘的概念图自动生成方法技术

技术编号:20272742 阅读:31 留言:0更新日期:2019-02-02 03:44
本实施例公开了一种基于文本分析及关联规则挖掘的概念图自动生成方法,基于文本分析技术中的文本分类方法,将试题分类到对应的概念中,采用有监督的数据挖掘算法处理无结构化的试题文本;将文本分析技术中的文本分类方法同关联规则挖掘相结合,得到生成的概念图。本发明专利技术能够代替专家手工分类的过程,并结合当前概念图生成算法中的关联规则挖掘方法,实现概念图的自动生成。

【技术实现步骤摘要】
基于文本分析及关联规则挖掘的概念图自动生成方法
本实施例涉及一种基于文本分析及关联规则挖掘的概念图自动生成方法。
技术介绍
随着教育信息化和教育现代化的不断推进,教育数据挖掘已成为国内外研究者关注的重点。为促进教育技术的发展,多种有关教育数据挖掘的技术被不断提出。作为教育数据挖掘中有效的知识可视化工具,概念图已成为当前研究的热点。概念图由美国康奈尔大学的Novak博士于1984年首次提出,它通过直观且接近自然语言的图形化方式表述概念间的关联。近年来概念图的表现形式仍以Novak的网络型概念结构图为标准,使用节点表示概念,使用有向边表示概念间的关联方向,并在边上使用介词标签表示概念间的归属关系。有关概念图,国内外学者进行了大量研究,并广泛应用到不同学科领域中,如教学诊断、知识组建、临床护理等,取得了一定成果。但早期概念图的生成主要依赖于专家经验,不仅耗费时间长,且难以保证其正确性。近年来,依赖教育数据挖掘技术的概念图自动生成方法不断被提出。Jiang等人提出了一种可以理解手绘概念图结构的方法和一种基于结构的智能操作技术。然而概念图首先需要由专家手工绘制生成。Chen等人利用文本分析技术从文献中自动生成电子学习领域的概念图。但他们仅考虑了单词间的关联规则而没有反映概念之间的关联。Caputo等人使用文本分析技术中的自然语言处理方法从电子商务网页中生成概念图。他们使用信息提取方法来挖掘概念并分析它们的关联,但并未充分考虑动态数据在概念图生成过程中的作用。Huang等人提出了一种模拟数据集下的概念图自动生成算法。他们通过使用改进的Apriori算法计算概念之间的相关性,但试题和概念之间的归属关系仍由专家手工分类所得。Atapattu等人从课堂幻灯片中提取出概念图并且将其应用于教育学工具。然而他们仅考虑幻灯片内容,未足够重视学生答题记录等课堂动态数据。简言之,近年来研究者在概念图的自动生成算法方面取得了很大的成就。然而这些研究存在共同的局限性,如过度依赖专家经验,导致生成概念图的时间长,并缺乏对学生答题记录等动态数据的合理使用。
技术实现思路
本实施例为了解决上述问题,提出了一种基于文本分析及关联规则挖掘的概念图自动生成方法,本实施例采用模块化设计、体积小、换热效率高、可靠性高且成本低。为了实现上述目的,本实施例采用如下技术方案:一种基于文本分析及关联规则挖掘的概念图自动生成方法,基于文本分析技术中的文本分类方法,将试题分类到对应的概念中,采用有监督的数据挖掘算法处理无结构化的试题文本;将文本分析技术中的文本分类方法同关联规则挖掘相结合,得到生成的概念图。进一步的,在试题文本分析阶段,从试题中提取文本特征,建立分类模型,并利用文本分析中的文本分类方法将试题分类到概念,获得试题和概念之间的关联。进一步的,在概念间的关联规则挖掘阶段,首先生成测试问题频繁项集,并结合答题记录,将前一阶段获取的试题和概念之间的关联,映射为概念之间的关联,最终生成概念图。更进一步的,所述测试问题频繁项集为测试问题的出现频率高于设定值的所有测试问题集合。进一步的,试题文本分析阶段,对试题文本进行分词和停用词的过滤,继而进行文本特征的提取,对提取的特征进行分类,得到分类结果,将试题自动分类到概念。更进一步的,选择TF-IDF方法来提取文本特征,并将分词及停用词过滤后的试题转化为可被计算机理解的向量空间模型。更进一步的,对提取的文本特征进行赋予权重,权重的大小根据该文本特征项的词频与该特征在整个文本数据集中出现的次数的乘积。更进一步的,在模型分类前,将试题文本特征划分为训练样本Wtrain和待分类样本Wtest,待分类样本Wtest是需要借助专家经验手工分类到概念的试题,训练样本Wtrain和待分类样本Wtest中的每个试题文本特征都有一个分类标签,每一个分类标签都表示一个概念,利用k-NN模型算法进行训练样本的训练与分类。更进一步的,将k-NN模型分类的结果转化为试题-概念矩阵QC,表示为如下形式:其中,qcjx指示试题Qj是否属于概念Cx,qcjx∈{0,1},m表示试题的数量。当qcjx=1时,表示试题Qj属于概念Cx,当qcjx=0,表示Qj不属于概念Cx。进一步的,在挖掘关联规则之前,将答题记录数字化为成绩矩阵,引入答题记录一致性,答题记录一致性即成绩矩阵中每两行成绩的同或值,表示在每两道试题中同时答对或同时答错的人数,如果两个试题间的关联小于设定阈值则将相关试题不计入后续的计算与考虑,减少试题关联数量。进一步的,所述关联规则的挖掘过程中,具体的关联规则包括:正确回答了试题Qa,然后同时正确回答了试题Qb;正确回答了试题Qb,然后同时正确回答了试题Qa;错误回答了试题Qa,然后同时错误回答了试题Qb;错误回答了试题Qb,然后同时错误回答了试题Qa;利用试题Qa和试题Qb的支持度与试题Qa的支持度的比值来表示关联规则Qa到Qb的置信度。进一步的,将试题间的关联规则映射为概念间的关联规则,所有的概念间的关联规则被标准化为一个概念应当先于另一个概念被掌握的形式,其关联的强度为计算得到的相关程度值,根据所得的概念间的关联规则,生成概念间的关联关系,如果两个概念间有不止一个关联,则仅保留相关程度最大的关联。与现有技术相比,本实施例的有益效果为:针对当前概念图生成算法所存在的对专家经验高度依赖、概念图生成耗时等局限性,本实施例提出了一种基于文本分析和关联规则挖掘的概念图自动生成方法,首先使用文本分析方法中的文本分类技术将试题分类到对应的概念中,代替专家手工分类的过程,并结合当前概念图生成算法中的关联规则挖掘方法,实现概念图的自动生成。专家经验的低依赖性;高质量的概念图和低时间消耗;可基于试题间关联规则的置信度的阈值等参数对概念图做动态调整。由生成的概念图显示概念间的关联方向和相关程度,展示概念间的结构,可作为知识可视化工具为教学提供优化指导。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本实施例的技术方案示意图;图2是本实施例的试题文本分类过程流程图;图3是本实施例的概念间的关联规则挖掘过程流程图;图4是本实施例的训练样本中的试题和概念的对应分布;图5(a)和图5(b)是本实施例的技术方案生成的概念图与Chen等人的算法生成的概念图。具体实施方式:下面结合附图与实施例对本实施例作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在本实施例中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本实施例各部件或元件本文档来自技高网
...

【技术保护点】
1.一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:基于文本分析技术中的文本分类方法,将试题分类到对应的概念中,采用有监督的数据挖掘算法处理无结构化的试题文本;将文本分析技术中的文本分类方法同关联规则挖掘相结合,得到生成的概念图。

【技术特征摘要】
1.一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:基于文本分析技术中的文本分类方法,将试题分类到对应的概念中,采用有监督的数据挖掘算法处理无结构化的试题文本;将文本分析技术中的文本分类方法同关联规则挖掘相结合,得到生成的概念图。2.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在试题文本分析阶段,从试题中提取文本特征,建立分类模型,并利用文本分析中的文本分类方法将试题分类到概念,获得试题和概念之间的关联。3.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在概念间的关联规则挖掘阶段,首先生成测试问题频繁项集,并结合答题记录,将前一阶段获取的试题和概念之间的关联,映射为概念之间的关联,最终生成概念图。4.如权利要求3所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:所述测试问题频繁项集为测试问题的出现频率高于设定值的所有测试问题集合。5.如权利要求1所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:试题文本分析阶段,对试题文本进行分词和停用词的过滤,继而进行文本特征的提取,对提取的特征进行分类,得到分类结果,将试题自动分类到概念。6.如权利要求5所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:选择TF-IDF方法来提取文本特征,并将分词及停用词过滤后的试题转化为可被计算机理解的向量空间模型;更进一步的,对提取的文本特征进行赋予权重,权重的大小根据该文本特征项的词频与该特征在整个文本数据集中出现的次数的乘积。7.如权利要求6所述的一种基于文本分析及关联规则挖掘的概念图自动生成方法,其特征是:在模型分类前,将试题文本特征划分为训练样本Wtrain和待分类样本Wtest,待分类样本...

【专利技术属性】
技术研发人员:邵增珍李彦聪郭延辉赵学臣王萧董树霞
申请(专利权)人:山东女子学院
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1