一种面向数字教育资源的实体对齐方法及系统技术方案

技术编号：21952389 阅读：29 留言：0更新日期：2019-08-24 17:41

本发明专利技术公开了一种面向数字教育资源的实体对齐方法及系统，首先通过学科主题树对已有教育资源库进行学科分块，并在每个教育资源块内构建分区索引体系；然后SKE算法提取待对齐数字教育资源的知识点标签，通过索引筛选出实体对齐候选集；接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度；最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树，判定其对齐结果。采用本方法进行数字教育资源的实体对齐，能够大幅度降低实体对齐计算复杂度，提高对齐效率；提升数字教育资源的文本相似度计算精度，从而提高实体对齐准确率。

An Entity Alignment Method and System for Digital Education Resources

全部详细技术资料下载

【技术实现步骤摘要】
一种面向数字教育资源的实体对齐方法及系统
本专利技术涉及一种数字教育资源实体对齐的方法及系统，属于数字教育资源领域。
技术介绍
随着当今技术的发展，基于网络的数字教育资源变得愈加丰富，人们可以通过网络不受地域限制得方便获取大量符合自身需求的优质教育资源，极大得提高了自身的主观能动性。如今，个性化的数字教育资源服务已成为传统教育模式的有力补充，成为一种不可忽视的有效教育渠道。然而随着数据量的增长，现有的数字化教育资源服务暴露出一些缺点：1)可获取的资源总量过多，导致学生可能需要消耗大量时间进行信息筛选，无法快速获取有效资源；2)网络数字教育资源有着标准不统一、结构不一致，内容分散片面等问题，导致资源分发用户体验不佳。因此，加强数字教育资源整合力度，提高信息资源的融合水平，构建高质量的数字教育资源库，从而进一步提高知用户体验是数字教育资源服务中亟待解决的重要问题之一。实体对齐是知识融合的关键技术支撑。实体对齐相关问题从数据库诞生之日起就被人们所重视，从20世纪六七十年代提出到现在，实体匹配技术也经历了一系列的发展变化。知识库实体对齐是实体匹配发展到Web3.0后，在不同知识库的链接过程中提出的一种问题，这个问题可以通过将经典的实体匹配技术应用到知识库领域，结合知识库的特点进行实体匹配来解决。实体对齐算法可以分为成对实体对齐和集体实体对齐。成对实体对齐方法，即将实体对齐问题看作是根据属性相似性评分判断待匹配实体对匹配与否的分类问题，Fellegi和Sunter在1969年就提出了该类实体对齐分类方法的概率模型。后来，Winkler等人在此基础上进行大量研究，构建...

【技术保护点】
1.一种面向数字教育资源的实体对齐方法，其特征在于，包括以下步骤：步骤1，对数字化教育资源进行分块；步骤2，构建分区索引体系，采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系；步骤3，提取待对齐数字教育资源的知识点标签，对待融合的教育资源数据进行简单清洗，只保留文本数据，并使用jieba分词工具对其进行分词、词性标注并去除停用词，得到词语集；然后使用SKE算法计算词语集中每个词汇的关健度，并选出关健度高的前5位作为该教育资源的知识点标签；步骤4，筛选候选实体对，根据步骤3中得到的教育资源的知识点标签，分别在步骤2中构建的hash索引中进行搜索，若有该知识点，则获取该知识点所关联的数字化教育资源ID，即局部实体对齐候选集，将局部Ei:{e1,e2…ej}；最后将局部候选集合并，去掉重复资源，得到最终实体对齐候选集E＝E1∪E2∪E3∪E4∪E5＝{e1,e2…en}，则候选实体对集记为{e0_e1,e0_e2…e0_en}；若E＝{}，则将该资源直接加入资源库；步骤5，计算实体对知识点标签相似性；使用Jaccard相似系数来计算两实体间知识点相似性：其中，...

【技术特征摘要】
1.一种面向数字教育资源的实体对齐方法，其特征在于，包括以下步骤：步骤1，对数字化教育资源进行分块；步骤2，构建分区索引体系，采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系；步骤3，提取待对齐数字教育资源的知识点标签，对待融合的教育资源数据进行简单清洗，只保留文本数据，并使用jieba分词工具对其进行分词、词性标注并去除停用词，得到词语集；然后使用SKE算法计算词语集中每个词汇的关健度，并选出关健度高的前5位作为该教育资源的知识点标签；步骤4，筛选候选实体对，根据步骤3中得到的教育资源的知识点标签，分别在步骤2中构建的hash索引中进行搜索，若有该知识点，则获取该知识点所关联的数字化教育资源ID，即局部实体对齐候选集，将局部Ei:{e1,e2…ej}；最后将局部候选集合并，去掉重复资源，得到最终实体对齐候选集E＝E1∪E2∪E3∪E4∪E5＝{e1,e2…en}，则候选实体对集记为{e0_e1,e0_e2…e0_en}；若E＝{}，则将该资源直接加入资源库；步骤5，计算实体对知识点标签相似性；使用Jaccard相似系数来计算两实体间知识点相似性：其中，A表示实体e1的知识点集合，B表示实体e2的知识点集合，J(A,B)则表示两知识点集合的交集与并集的比值，记为Sam(table)；步骤6，计算实体对属性值相似度；依次取出候选实体集E中的资源与待对齐资源进行对比，先根据映射规则匹配两个资源的属性名，当指向同一属性时，再根据编辑距离计算属性值相似度，最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)；步骤7，计算实体对中文本资源相似度；获取教育资源简介信息，先对信息文本进行分词、去除停用词的处理，使用构建好的LDA主题模型计算两个文本的主题分布概率，并依次作为该文本的向量表示；可选定合适的主题数k作为向量维度，则art1＝(TM11,TM...

【专利技术属性】
技术研发人员：季一木，刘艳兰，刘强，刘尚东，尧海昌，李奎，许正阳，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人