一种准确而高效的智能化教育知识图谱构建方法技术

技术编号:31024890 阅读:23 留言:0更新日期:2021-11-30 03:24
本发明专利技术提供一种准确而高效的智能化教育知识图谱的构建方法,以基于某一学科权威的教材教辅资料,构建出知识图谱的本体结构,采用半自动构建本体,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出本体,并在众包半自动语义标注过程进行完善;按照学科知识图谱的本体结构,对结构化的外部数据源进行相应的处理之后,得到RDF外源数据,然后利用标注数据中的数据作为训练数据,按照学科知识图谱的本体结构,采用有监督、半监督和无监督方法从互联网文本中抽取实体和关系,得到扩充数据;能够对教育知识点数据本身进行有针对性的文本转换和纠错规范,准确性和可靠性高,最高效构建出最准确的知识图谱。最准确的知识图谱。最准确的知识图谱。

【技术实现步骤摘要】
一种准确而高效的智能化教育知识图谱构建方法


[0001]本专利技术涉及智能教学的
,特别是一种准确而高效的智能化教育知识图谱的构建方法。

技术介绍

[0002]人工智能技术已经广泛应用于教学领域中,贯穿了教、学、练、评、测这五大环节。比如教:智能备课系统、教师能力图谱;学:个性化学习内容,智能学习路径;练:个性化练习,语音练习;测:第三方测评;评:学习报告反馈和课堂行为监测等等。人工智能技术已经基本能够满足教学流程环节,帮助老师或者学生实现有针对性的和精准的教育知识数据加工以及高效的知识教授与学习。但是在教与学这两个环节中,相关的知识教育的数据量是巨大的并且数据结构较为复杂;虽然师生能够运用搜索引擎搜索知识点,但是耗费时间、效率低下,搜索结果质量参差不齐。为了提高教育知识学习的全面性,需要对教育知识数据进行准确的挖掘与关联,以此构建相应的教育知识图谱。
[0003]知识图谱的构建往往需要付出很大的代价。由于当前的自然语言处理方法还不够完善,完全自动化的构建方式难以得到较为准确的知识图谱,例如,DBPedia、YAGO等都存在有较多错误;而完全人工构建的方法虽然保证了准确性,但却需要花费巨大的人力和时间成本,完全人工构建较大规模的知识图谱几乎不可能。因此,如何协调准确率和效率、平衡自动化方法和人工参与,以最高效的方式构建出最准确的知识图谱,是目前构建知识图谱需要解决的一大难题。

技术实现思路

[0004]针对现有技术存在的缺陷,本专利技术提供了一种准确而高效的智能化教育知识图谱的构建方法,该方法能够充分利用领域内高质量的专业资料和海量的互联网数据,高效地构建出准确率较高的实际可用的领域知识图谱。
[0005]为解决上述技术问题,本专利技术提供的准确而高效的教育知识图谱构建方法,包括如下步骤:
[0006]步骤S1.领域本体构建:基于学科权威的教材教辅资料,构建出知识图谱的本体结构,采用半自动构建本体的方法,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善;
[0007]步骤S2.众包半自动语义标注:将文本页面众包给多个标注者,根据构建好的本体,利用语义标注工具标注得到高质量的标注数据;
[0008]步骤S3.外源数据补全:将其他来源的结构化程度较好的数据按照本体结构处理(即按照学科知识图谱的本体结构,对结构化的外部数据源进行相应的处理)后,与标注数据整合在一起;
[0009]步骤S4.信息抽取:利用标注数据中的数据作为训练数据,按照学科知识图谱的本
体结构,采用有监督、半监督和无监督的方法从互联网文本中抽取实体和关系,得到扩充数据。
[0010]进一步地,在所述步骤S1中,基于学科权威的教材教辅资料,构建出知识图谱的本体结构,具体步骤包括:
[0011]步骤S101.归纳领域核心概念:先利用相关统计学方法得到领域术语,和从领域术语中得到领域核心概念,再参考质量较高的知识图谱或数据源,并在众包半自动语义标注步骤中进行完善补充;以上方法得到的领域核心概念的归纳整理需要参照本体构建的两个基本原则,即:本体中类的设计应当秉承独立性和共享性原则;
[0012]步骤S102.定义领域关系及其约束:关系是本体的核心基本要素,是对领域中的概念、实例之间的相互作用的描述,关系直接决定了本体知识图谱的知识丰富程度以及基于知识图谱构建的其他应用系统的功能范围;
[0013]步骤S103.本体检查:在构建领域本体的过程中需要领域专家的参与和协作;根据专家的指导意见,修改和完善后得到最终的学科领域本体。
[0014]进一步地,步骤S101的本体中包含的类的数目应该尽可能地最小化,尽可能地去除冗余的类。
[0015]进一步地,步骤S102中还包括以下步骤:(1)利用OpenIE方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系;(2)参考质量较高的知识图谱或数据源;(3)根据领域核心概念和百科信息框来确定关系;每个领域核心概念下都有很多实例,大多数实例在百科中都有对应的信息框,通过整合同一概念下多个实例的信息框关系,便可以得到该概念下较为重要的关系;(4)众包半自动语义标注过程中补充新的关系;在众包半自动语义标注过程中,如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。
[0016]进一步地,在所述步骤S2中的“利用语义标注工具标注得到高质量的标注数据”,具体为,基于Pundit开发的众包半自动语义标注工具,将学科教材教辅电子化后得到的HTML文本作为标注对象,并以学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善学科领域本体;基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过程,即,将文档中的纯文本知识用RDF语言描述出来;其中,语义标注的过程通常包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息;而且在进行语义标注时,将实例及实例间的关系表示为三元组的形式(E1,R,E2),其中,R是实例E1和E2之间的关系。
[0017]进一步地,在将实例及实例间的关系表示为三元组时通过以下步骤得到高质量的三元组:
[0018]步骤S301.获取实例和关系名集合;对每个概念c用E={e1,

,eN}表示它的实例集合,对每一个实例ei都爬取该实例对应的百度百科信息框,得到所有信息框中的关系名集合R={r1,

,rM},集合大小为M;
[0019]步骤S302.连边;如果实例ei的信息框中含有rj,则将ei与rj之间边的权重设置为1;如果不含,则设置为0;为了避免出现图稀疏现象,增加了实例和实例、关系名和关系名之
间的边;对于实例和实例连边的操作,首先为每一个实例设置一个关系名向量V,向量的维度等同于关系名集合的大小M;如果关系名rk存在于该实例的信息框中,则设置为1;若不存在,则将该位置设置为0;进而可以得到实例和实例关系名向量之间的余弦相似度,作为实例和实例之间边的权重;同理,可以给每个关系名设置一个实例向量,进而得到关系名和关系名之间的余弦相似度作为它们之间边的权重;
[0020]步骤S303.迭代计算;采用图强化算法进行迭代计算,得到每个概念下的实例和关系名典型度排序;
[0021]步骤S304.将典型度高的关系名及其值信息加入到知识图谱中。
[0022]进一步地,所述语义标注系统作为知识图谱构建的关键系统,主要包括以下需求:
[0023](1)标注依据:语义标注系统是基于本体的语义标注功能,必须能够导入一个或多个本体描述文件或者采用包含本体信息的文件进行配置,作为语义标注系统的基本的标注依据;
[0024](2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种准确而高效的教育知识图谱构建方法,其特征在于,包括如下步骤:步骤S1.领域本体构建:基于学科权威的教材教辅资料,构建出知识图谱的本体结构,采用半自动构建本体的方法,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善;步骤S2.众包半自动语义标注:将文本页面众包给多个标注者,根据构建好的本体,利用语义标注工具标注得到高质量的标注数据;步骤S3.外源数据补全:将其他来源的结构化程度较好的数据按照本体结构处理后,与标注数据整合在一起;步骤S4.信息抽取:利用标注数据中的数据作为训练数据,按照学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从互联网文本中抽取实体和关系,得到扩充数据。2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,基于学科权威的教材教辅资料,构建出知识图谱的本体结构,具体步骤包括:步骤S101.归纳领域核心概念:先利用相关统计学方法得到领域术语,和从领域术语中得到领域核心概念,再参考质量较高的知识图谱或数据源,并在众包半自动语义标注步骤中进行完善补充;以上方法得到的领域核心概念的归纳整理需要参照本体构建的两个基本原则,即:本体中类的设计应当秉承独立性和共享性原则;步骤S102.定义领域关系及其约束:关系是本体的核心基本要素,是对领域中的概念、实例之间的相互作用的描述,关系直接决定了本体知识图谱的知识丰富程度以及基于知识图谱构建的其他应用系统的功能范围;步骤S103.本体检查:在构建领域本体的过程中需要领域专家的参与和协作;根据专家的指导意见,修改和完善后得到最终的学科领域本体。3.根据权利要求2所述的方法,其特征在于,步骤S101的本体中包含的类的数目应该尽可能地最小化,尽可能地去除冗余的类。4.根据权利要求2所述的方法,其特征在于,步骤S102中还包括以下步骤:(1)利用OpenIE方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系;(2)参考质量较高的知识图谱或数据源;(3)根据领域核心概念和百科信息框来确定关系;每个领域核心概念下都有很多实例,大多数实例在百科中都有对应的信息框,通过整合同一概念下多个实例的信息框关系,便可以得到该概念下较为重要的关系;(4)众包半自动语义标注过程中补充新的关系;在众包半自动语义标注过程中,如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。5.根据权利要求1或2或3或4所述的方法,其特征在于,在所述步骤S2中的“利用语义标注工具标注得到高质量的标注数据”,具体为,基于Pundit开发的众包半自动语义标注工具,将学科教材教辅电子化后得到的HTML文本作为标注对象,并以学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善学科领域本体;基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过程,即,将文档中的纯文本知识用RDF语言描述出来;其中,语义标注的过程通常包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可
以丰富实例的内在信息;而且在进行语义标注时,将实例及实例间的关系表示为三元组的形式(E1,R,E2),其中,R是实例E1和E2之间的关系。6.根据权利要求5所述的方法,其特征在于,在将实例及实例间的关系表示为三元组时通过以下步骤得到高质量的三元组:步骤S301.获取实例和关系名集合;对每个概念c用E={e1,

,eN}表示它的实例集合,对每一个实例ei都爬取该实例对应的百度百科信息框,得到所有信息框中的关系名集合R={r1,

,rM},集合大小为M;步骤S302.连边;如果实例ei的信息框中含有rj,则将ei与rj之间边的权重设置为1;如果不含,则设置为0;为了避免出现图稀疏现象,增加了实例和实例、关系名和关系名之间的边;对于实例和实例连边的操作,首先为每一个实例设置一个关系名向量V,向量的维...

【专利技术属性】
技术研发人员:徐强
申请(专利权)人:广东昭阳信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1