基于自然语言处理的教育资源质量评价挖掘方法及系统技术方案

技术编号：21914241 阅读：40 留言：0更新日期：2019-08-21 12:30

本发明专利技术公开了一种基于自然语言处理的教育资源质量评价挖掘方法及系统，首先从海量教育评论数据中使用自然语言处理技术挖掘用户评价观点，以

A Method and System for Mining Educational Resources Quality Assessment Based on Natural Language Processing

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的教育资源质量评价挖掘方法及系统
本专利技术涉及一种数字教育资源质量评价的方法，尤其涉及一种基于自然语言处理的教育资源质量评价挖掘方法及系统。
技术介绍
随着互联网技术发展，远程教育发展迅猛，数字化教育资源也在信息化发展过程中起到日益重要的作用。随着大数据时代的到来和教育信息化的不断推进，数字教育资源在数量上呈现‘爆炸式的增长。大数据的提出者麦肯希称:“当今的每一个行业和业务职能领域都已被数据渗透其中,数据已然成为重要的生产因素。”,人们也在挖掘和运用大数据的道路上越走越远。利用大数据的挖掘和分析进行教育资源的质量评价，建设课程质量保障体质，在为用户提供课程质量评价服务的同时，为众筹众创过程中教育资源的质量提供保障。数字化学习资源也呈现出种类繁杂混乱、可用性缺乏，使用户难以选择的现象。究其原因,主要在于数字化学习资源需要准确的质量评价方法和有效的质量控制机制。如今，在现代教育
已经提出了许多成熟的质量评价框架，Achieve(2011)提出了一种名为OERRubric的质量评价框架,其中包含8个评价指标；QualityMatters(2014)提出了基于八个评价维度的QM框架。在国内，教育部于2013年提出了国家精品资源共享课评审指标体系；于2010年提出国家精品课程评价指标体系。虽然，教育质量评价已经有了很成熟的理论框架，但在应用领域仍有许多不足之处。比如教育质量评价无法对教学资源进行定量评价，因为当下的定量评价方法多以问卷的方式实现，问卷带有过多的主观性和非真实性，在质量评价方面有无法弥补的缺陷性。在自动化质量评价方面，2015年...

【技术保护点】
1.一种基于自然语言处理的教育资源质量评价挖掘方法，其特征在于，包括以下步骤：步骤1，采集教育资源评价数据，去除无效评论；步骤2，评价搭配抽取；能够表达用户情感的评价对象和评价短语由多个词语组成，每一组词构成一个<评价对象，评价词>的评价搭配；对评价进行分句，用带权词典构建Trie树，根据Trie树对待分句生成所有可能词为结点组成的有向无环图，通过动态规划法以权值最大的路径输出为分词结果；再对待处理句子进行依存句法分析，然后将满足规则关系的搭配提取为评价搭配二元组，以<评价对象，评价词>的结构保存；步骤3，将自然语言向量化；word2vec采用的模型包含了连续词袋模型CBOW和Skip‑Gram模型；通过word2vec进行高效训练从而得到词向量，词向量之间的距离表示词和词之间的相似程度；步骤4，构建knn聚类模型；取评价对象向量集合Si，包含i个m种类的评价搭配词向量模型，当第i+1个词向量加入集合时，计算Ci+1与所有向量的余弦相似度sim；确定k的值为N×A，N为元组总数，A这里取1/10，将sim按照从小到大的顺序排序，选取前k个向量tensors，统计...

【技术特征摘要】
1.一种基于自然语言处理的教育资源质量评价挖掘方法，其特征在于，包括以下步骤：步骤1，采集教育资源评价数据，去除无效评论；步骤2，评价搭配抽取；能够表达用户情感的评价对象和评价短语由多个词语组成，每一组词构成一个<评价对象，评价词>的评价搭配；对评价进行分句，用带权词典构建Trie树，根据Trie树对待分句生成所有可能词为结点组成的有向无环图，通过动态规划法以权值最大的路径输出为分词结果；再对待处理句子进行依存句法分析，然后将满足规则关系的搭配提取为评价搭配二元组，以<评价对象，评价词>的结构保存；步骤3，将自然语言向量化；word2vec采用的模型包含了连续词袋模型CBOW和Skip-Gram模型；通过word2vec进行高效训练从而得到词向量，词向量之间的距离表示词和词之间的相似程度；步骤4，构建knn聚类模型；取评价对象向量集合Si，包含i个m种类的评价搭配词向量模型，当第i+1个词向量加入集合时，计算Ci+1与所有向量的余弦相似度sim；确定k的值为N×A，N为元组总数，A这里取1/10，将sim按照从小到大的顺序排序，选取前k个向量tensors，统计这k个向量中所属分类比例最大的，则这个向量属于该分类；步骤5，选出中心评价对象向量；通过floyd算法计算每一类中所有向量之间的余弦相似度，保存在矩阵S中，S[i][j]表示向量i与向量j的余弦相似度；遍历S选取与其他向量相似度最小的向量作为类别的中心向量；中心向量对应的评价对象则为中心评价对象；步骤6，选出中心评价词对象；在以评价对象分的每一类中重复步骤5，选出中心词评价向量组；步骤7，生成评价树；生成以<资源，评价对象，评价词>为结点...

【专利技术属性】
技术研发人员：季一木，许正阳，刘强，刘尚东，尧海昌，李奎，刘艳兰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人