一种面向数字教育资源的实体对齐方法及系统技术方案

技术编号:21952389 阅读:29 留言:0更新日期:2019-08-24 17:41
本发明专利技术公开了一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。

An Entity Alignment Method and System for Digital Education Resources

【技术实现步骤摘要】
一种面向数字教育资源的实体对齐方法及系统
本专利技术涉及一种数字教育资源实体对齐的方法及系统,属于数字教育资源领域。
技术介绍
随着当今技术的发展,基于网络的数字教育资源变得愈加丰富,人们可以通过网络不受地域限制得方便获取大量符合自身需求的优质教育资源,极大得提高了自身的主观能动性。如今,个性化的数字教育资源服务已成为传统教育模式的有力补充,成为一种不可忽视的有效教育渠道。然而随着数据量的增长,现有的数字化教育资源服务暴露出一些缺点:1)可获取的资源总量过多,导致学生可能需要消耗大量时间进行信息筛选,无法快速获取有效资源;2)网络数字教育资源有着标准不统一、结构不一致,内容分散片面等问题,导致资源分发用户体验不佳。因此,加强数字教育资源整合力度,提高信息资源的融合水平,构建高质量的数字教育资源库,从而进一步提高知用户体验是数字教育资源服务中亟待解决的重要问题之一。实体对齐是知识融合的关键技术支撑。实体对齐相关问题从数据库诞生之日起就被人们所重视,从20世纪六七十年代提出到现在,实体匹配技术也经历了一系列的发展变化。知识库实体对齐是实体匹配发展到Web3.0后,在不同知识库的链接过程中提出的一种问题,这个问题可以通过将经典的实体匹配技术应用到知识库领域,结合知识库的特点进行实体匹配来解决。实体对齐算法可以分为成对实体对齐和集体实体对齐。成对实体对齐方法,即将实体对齐问题看作是根据属性相似性评分判断待匹配实体对匹配与否的分类问题,Fellegi和Sunter在1969年就提出了该类实体对齐分类方法的概率模型。后来,Winkler等人在此基础上进行大量研究,构建出一种实体对齐概率模型,在实体对齐中取得较好匹配效果。该模型使用属性值的近似比较代替相等与否的二值比较,将待匹配属性值出现的频率代入到属性值相等概率的计算中,并结合贝叶斯网络对属性的相关性建模,并使用最大估计算法对参数进行估计。随着基于Fellegi-Sunter模型的概率实体对齐方法取得的大量的研究成果,机器学习及统计学习的快速发展,很多机器学习方法也应用到实体对齐领域,并取得了巨大的进展,但仍属于成对实体对齐。集体实体对齐,是在成对实体对齐基础上将实体间关系考虑在内,计算实体对间的结构相似性,综合考虑属性相似性与结构相似性来匹配实体对。Suchanek等人提出了一种新型的基于概率的全局算法,PARIS算法。该算法在不需要任何参数调节的条件下不仅能够有效对齐实体还对齐了实体的类别、属性和关系。常规实体对齐做法需要遍历两个知识库中所有实体对,计算复杂度随着知识库规模二次增长,因此,现有知识库实体对齐研究中存在知识库实体量大,实体对齐复杂度高的挑战。当前提高对齐效率的主要方法是引入数据库中分区技术构建知识库实体的分区索引体系,有效加快实体对齐速度,提高效率。在语义万维网发展的推动下,针对多源知识库实体对齐国内外开展了很多相关工作,但是大多适用于英文知识库,对于中文知识库的研究较少。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种面向数字教育资源的实体对齐方法及系统,首先通过学科主题树对已有教育资源库进行学科分块,并在每个教育资源块内构建分区索引体系;然后SKE算法提取待对齐数字教育资源的知识点标签,通过索引筛选出实体对齐候选集;接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度;最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树,判定其对齐结果。采用本方法进行数字教育资源的实体对齐,能够大幅度降低实体对齐计算复杂度,提高对齐效率;提升数字教育资源的文本相似度计算精度,从而提高实体对齐准确率。本专利技术实体对齐方法准确高效,对海量的网络数字教育资源进行有效融合,解决了数字教育资源重复冗余、分布散乱等问题,提高数字教育资源服务质量。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种面向数字教育资源的实体对齐方法,包括以下步骤:步骤1,对数字化教育资源进行分块。步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签。步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej}。最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en}。若E={},则将该资源直接加入资源库。步骤5,计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性:其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table)。步骤6,计算实体对属性值相似度。依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。步骤7,计算实体对中文本资源相似度。获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2)。步骤8,构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树。步骤9,判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐。若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中。若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。优选的:步骤1中参照高质量知识库中的学科分类体系,构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签,按照学科主题树中的学科分类将数字教育资源进行聚簇。优选的:步骤2中以资源实体的知识点标签为索引键值,构建关于知识点标签的hash函数,将具有相同索引键值的资源实体分配到本文档来自技高网
...

【技术保护点】
1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:步骤1,对数字化教育资源进行分块;步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签;步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej};最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en};若E={},则将该资源直接加入资源库;步骤5,计算实体对知识点标签相似性;使用Jaccard相似系数来计算两实体间知识点相似性:其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);步骤6,计算实体对属性值相似度;依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);步骤7,计算实体对中文本资源相似度;获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;可选定合适的主题数k作为向量维度,则art1=(TM11,TM12…TM1k),art2=(TM21,TM22…TM2k),其中art代表文本,TM代表某一主题词在文本中出现的概率值;最后使用余弦相似度计算两个文本间相似度,Sam(art1,art2)=Cos(art1,art2);步骤8,构建判断实体对齐的决策树;前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art1,art2),人工标记对齐情况,获取一定数量的训练集;以Sam(table)、Sam(attribute)、Sam(art1,art2)及相应取值作为实体对的特征与特征值输入,通过训练构建判定实体对是否对齐的决策树;步骤9,判定候选实体对是否匹配;通过步骤8构建好的决策树判定候选实体对集记{e0_e1,e0_e2…e0_en}中实体对是否对齐;若有对齐实体对,则生成新的对齐实体,加入数字教育资源库中;若无对齐实体对,则将待对齐实体作为独立实体加入数字教育资源库中,并将其与相应知识标签做好链接。...

【技术特征摘要】
1.一种面向数字教育资源的实体对齐方法,其特征在于,包括以下步骤:步骤1,对数字化教育资源进行分块;步骤2,构建分区索引体系,采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系;步骤3,提取待对齐数字教育资源的知识点标签,对待融合的教育资源数据进行简单清洗,只保留文本数据,并使用jieba分词工具对其进行分词、词性标注并去除停用词,得到词语集;然后使用SKE算法计算词语集中每个词汇的关健度,并选出关健度高的前5位作为该教育资源的知识点标签;步骤4,筛选候选实体对,根据步骤3中得到的教育资源的知识点标签,分别在步骤2中构建的hash索引中进行搜索,若有该知识点,则获取该知识点所关联的数字化教育资源ID,即局部实体对齐候选集,将局部Ei:{e1,e2…ej};最后将局部候选集合并,去掉重复资源,得到最终实体对齐候选集E=E1∪E2∪E3∪E4∪E5={e1,e2…en},则候选实体对集记为{e0_e1,e0_e2…e0_en};若E={},则将该资源直接加入资源库;步骤5,计算实体对知识点标签相似性;使用Jaccard相似系数来计算两实体间知识点相似性:其中,A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值,记为Sam(table);步骤6,计算实体对属性值相似度;依次取出候选实体集E中的资源与待对齐资源进行对比,先根据映射规则匹配两个资源的属性名,当指向同一属性时,再根据编辑距离计算属性值相似度,最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute);步骤7,计算实体对中文本资源相似度;获取教育资源简介信息,先对信息文本进行分词、去除停用词的处理,使用构建好的LDA主题模型计算两个文本的主题分布概率,并依次作为该文本的向量表示;可选定合适的主题数k作为向量维度,则art1=(TM11,TM...

【专利技术属性】
技术研发人员:季一木刘艳兰刘强刘尚东尧海昌李奎许正阳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1