基于自然语言处理的教育资源质量评价挖掘方法及系统技术方案

技术编号:21914241 阅读:40 留言:0更新日期:2019-08-21 12:30
本发明专利技术公开了一种基于自然语言处理的教育资源质量评价挖掘方法及系统,首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点,以

A Method and System for Mining Educational Resources Quality Assessment Based on Natural Language Processing

【技术实现步骤摘要】
基于自然语言处理的教育资源质量评价挖掘方法及系统
本专利技术涉及一种数字教育资源质量评价的方法,尤其涉及一种基于自然语言处理的教育资源质量评价挖掘方法及系统。
技术介绍
随着互联网技术发展,远程教育发展迅猛,数字化教育资源也在信息化发展过程中起到日益重要的作用。随着大数据时代的到来和教育信息化的不断推进,数字教育资源在数量上呈现‘爆炸式的增长。大数据的提出者麦肯希称:“当今的每一个行业和业务职能领域都已被数据渗透其中,数据已然成为重要的生产因素。”,人们也在挖掘和运用大数据的道路上越走越远。利用大数据的挖掘和分析进行教育资源的质量评价,建设课程质量保障体质,在为用户提供课程质量评价服务的同时,为众筹众创过程中教育资源的质量提供保障。数字化学习资源也呈现出种类繁杂混乱、可用性缺乏,使用户难以选择的现象。究其原因,主要在于数字化学习资源需要准确的质量评价方法和有效的质量控制机制。如今,在现代教育
已经提出了许多成熟的质量评价框架,Achieve(2011)提出了一种名为OERRubric的质量评价框架,其中包含8个评价指标;QualityMatters(2014)提出了基于八个评价维度的QM框架。在国内,教育部于2013年提出了国家精品资源共享课评审指标体系;于2010年提出国家精品课程评价指标体系。虽然,教育质量评价已经有了很成熟的理论框架,但在应用领域仍有许多不足之处。比如教育质量评价无法对教学资源进行定量评价,因为当下的定量评价方法多以问卷的方式实现,问卷带有过多的主观性和非真实性,在质量评价方面有无法弥补的缺陷性。在自动化质量评价方面,2015年,肖奎,李兵等人提出了一种基于用户行为分析的维基百科词条质量评价方法,运用维基百科资源特有的点击量、编辑次数等客观数据进行机器学习的分类。由丽萍等人提出了一种基于自然语言处理和TOPSIS法的质量评价方法,基于酒店的评论数据对酒店的环境、服务等各方面指标进行了质量评价。据研究表面,当前质量评价在计算机领域的应用主要分为两大类:基于资源自身属性的数据进行机器学习的简单分类;基于自然语言处理的情感分析评价,从而判定词条的质量。前者主要研究教育资源属性方面与教育资源质量的关系,运用机器学习的方法进行简单的分类,后者通过情感分析,使评价者的评论数据化。这些方法在一定程度上提高了质量评价的准确性,拓宽了质量评价的方法。但总体而言,在教育资源质量评价方面的研究仍然处于起步阶段,应用于数字教育资源,基于细粒度评价模型的自动化质量评价方法还有待于研究。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于自然语言处理的,对于用户生成的海量评价自动化处理的教育资源质量评价方法及系统,首先从评论数据集中提取评价搭配二元组,再将二元组向量化,最后分别以评价对象、评价词进行聚类,通过floyd算法确定中心向量值,构建三层评价树,最后用情感分析字典进行打分,解决了基于众筹众创的数字教育评价数据量过大,人工评价方法成本高、难度大、主观性高等问题。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于自然语言处理的教育资源质量评价挖掘方法,其特征在于,包括以下步骤:步骤1,采集教育资源评价数据,去除无效评论。步骤2,评价搭配抽取。能够表达用户情感的评价对象和评价短语由多个词语组成,每一组词构成一个<评价对象,评价词>的评价搭配。对评价进行分句,用带权词典构建Trie树,根据Trie树对待分句生成所有可能词为结点组成的有向无环图,通过动态规划法以权值最大的路径输出为分词结果。再对待处理句子进行依存句法分析,然后将满足规则关系的搭配提取为评价搭配二元组,以<评价对象,评价词>的结构保存。步骤3,将自然语言向量化。word2vec采用的模型包含了连续词袋模型CBOW和Skip-Gram模型。通过word2vec进行高效训练从而得到词向量,词向量之间的距离表示词和词之间的相似程度。步骤4,构建knn聚类模型。取评价对象向量集合Si,包含i个m种类的评价搭配词向量模型,当第i+1个词向量加入集合时,计算Ci+1与所有向量的余弦相似度sim。确定k的值为N×A,N为元组总数,A这里取1/10,将sim按照从小到大的顺序排序,选取前k个向量tensors,统计这k个向量中所属分类比例最大的,则这个向量属于该分类。步骤5,选出中心评价对象向量。通过floyd算法计算每一类中所有向量之间的余弦相似度,保存在矩阵S中,S[i][j]表示向量i与向量j的余弦相似度。遍历S选取与其他向量相似度最小的向量作为类别的中心向量。中心向量对应的评价对象则为中心评价对象。步骤6,选出中心评价词对象。在以评价对象分的每一类中重复步骤5,选出中心词评价向量组。步骤7,生成评价树。生成以<资源,评价对象,评价词>为结点的评价树,其中,资源为根结点,评价对象为二级结点,评价词为三级结点。步骤8,对评价词进行情感分析。经过分类统计,得到关于评价对象的情感得分,再通过权重矩阵值得出整个资源的评分。将情感分成两类标签集:消极和积极。对于消极的评价词,我们记作‘-1’,积极的评价词记做‘1’。对于某含有a个中心词的评价对象O,它的评分值属于[-a,a]区间。对于含有x个评价对象的资源,它的评分值属于[-x*a,x*a]。步骤9,用户偏好矩阵构建。对于x个评价对象,获得用户偏好向量X,有Xi∈(0,1),用户对某一评价对象偏好越大,相应的Xi值就越大。步骤10,获得资源评价得分。将评价对象得分向量A与用户偏好向量X点乘,获得最后的资源评价得分。优选的:步骤1中去除以符号字符为主的无效评论。优选的:步骤3中采用google开源框架word2vec,加载由大量百科词库训练的模型,将<评价对象,评价词>二元组转化成1×64向量二元组。优选的:步骤7中对于评价生成树,必须保证每一个上级结点下至少对应一个下级节点。一种采用基于自然语言处理的教育资源质量评价挖掘方法制成的系统,包括教育资源评价数据输入模块、去除无效评论模块、评价搭配抽取模块、将自然语言向量化模块、构建knn聚类模型模块、选出中心评价对象向量模块、选出中心评价词对象模块、生成评价树模块、对评价词进行情感分析模块、用户偏好矩阵构建模块、获得资源评价得分模块。本专利技术相比现有技术,具有以下有益效果:本专利技术所提出的基于自然语言处理的自动化数字教育资源质量评价方法,数字教育评价数据量过大,人工评价方法成本高、难度大、主观性高等问题。用户评价转变成评价搭配二元组以后,更加方便直接表现对资源质量进行量化的评价,为用户的个性化选择提供了便利。附图说明图1教育资源质量评价挖掘方法流程图图2评价搭配抽取方法流程图图3KNN评价聚类结构图4评价树结构图具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。一种基于自然语言处理的教育资源质量评价挖掘方法,首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点,利用依存句法分析对评论进行关联分析,按照提取规则进行评价本文档来自技高网
...

【技术保护点】
1.一种基于自然语言处理的教育资源质量评价挖掘方法,其特征在于,包括以下步骤:步骤1,采集教育资源评价数据,去除无效评论;步骤2,评价搭配抽取;能够表达用户情感的评价对象和评价短语由多个词语组成,每一组词构成一个<评价对象,评价词>的评价搭配;对评价进行分句,用带权词典构建Trie树,根据Trie树对待分句生成所有可能词为结点组成的有向无环图,通过动态规划法以权值最大的路径输出为分词结果;再对待处理句子进行依存句法分析,然后将满足规则关系的搭配提取为评价搭配二元组,以<评价对象,评价词>的结构保存;步骤3,将自然语言向量化;word2vec采用的模型包含了连续词袋模型CBOW和Skip‑Gram模型;通过word2vec进行高效训练从而得到词向量,词向量之间的距离表示词和词之间的相似程度;步骤4,构建knn聚类模型;取评价对象向量集合Si,包含i个m种类的评价搭配词向量模型,当第i+1个词向量加入集合时,计算Ci+1与所有向量的余弦相似度sim;确定k的值为N×A,N为元组总数,A这里取1/10,将sim按照从小到大的顺序排序,选取前k个向量tensors,统计这k个向量中所属分类比例最大的,则这个向量属于该分类;步骤5,选出中心评价对象向量;通过floyd算法计算每一类中所有向量之间的余弦相似度,保存在矩阵S中,S[i][j]表示向量i与向量j的余弦相似度;遍历S选取与其他向量相似度最小的向量作为类别的中心向量;中心向量对应的评价对象则为中心评价对象;步骤6,选出中心评价词对象;在以评价对象分的每一类中重复步骤5,选出中心词评价向量组;步骤7,生成评价树;生成以<资源,评价对象,评价词>为结点的评价树,其中,资源为根结点,评价对象为二级结点,评价词为三级结点;步骤8,对评价词进行情感分析;经过分类统计,得到关于评价对象的情感得分,再通过权重矩阵值得出整个资源的评分;将情感分成两类标签集:消极和积极;对于消极的评价词,我们记作‘‑1’,积极的评价词记做‘1’;对于某含有a个中心词的评价对象O,它的评分值属于[‑a,a]区间;对于含有x个评价对象的资源,它的评分值属于[‑x*a,x*a];步骤9,用户偏好矩阵构建;对于x个评价对象,获得用户偏好向量X,有Xi∈(0,1),用户对某一评价对象偏好越大,相应的Xi值就越大;步骤10,获得资源评价得分;将评价对象得分向量A与用户偏好向量X点乘,获得最后的资源评价得分。...

【技术特征摘要】
1.一种基于自然语言处理的教育资源质量评价挖掘方法,其特征在于,包括以下步骤:步骤1,采集教育资源评价数据,去除无效评论;步骤2,评价搭配抽取;能够表达用户情感的评价对象和评价短语由多个词语组成,每一组词构成一个<评价对象,评价词>的评价搭配;对评价进行分句,用带权词典构建Trie树,根据Trie树对待分句生成所有可能词为结点组成的有向无环图,通过动态规划法以权值最大的路径输出为分词结果;再对待处理句子进行依存句法分析,然后将满足规则关系的搭配提取为评价搭配二元组,以<评价对象,评价词>的结构保存;步骤3,将自然语言向量化;word2vec采用的模型包含了连续词袋模型CBOW和Skip-Gram模型;通过word2vec进行高效训练从而得到词向量,词向量之间的距离表示词和词之间的相似程度;步骤4,构建knn聚类模型;取评价对象向量集合Si,包含i个m种类的评价搭配词向量模型,当第i+1个词向量加入集合时,计算Ci+1与所有向量的余弦相似度sim;确定k的值为N×A,N为元组总数,A这里取1/10,将sim按照从小到大的顺序排序,选取前k个向量tensors,统计这k个向量中所属分类比例最大的,则这个向量属于该分类;步骤5,选出中心评价对象向量;通过floyd算法计算每一类中所有向量之间的余弦相似度,保存在矩阵S中,S[i][j]表示向量i与向量j的余弦相似度;遍历S选取与其他向量相似度最小的向量作为类别的中心向量;中心向量对应的评价对象则为中心评价对象;步骤6,选出中心评价词对象;在以评价对象分的每一类中重复步骤5,选出中心词评价向量组;步骤7,生成评价树;生成以<资源,评价对象,评价词>为结点...

【专利技术属性】
技术研发人员:季一木许正阳刘强刘尚东尧海昌李奎刘艳兰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1