一种高校中文知识图谱构建系统及其方法技术方案

技术编号：38592088 阅读：17 留言：0更新日期：2023-08-26 23:30

本发明专利技术公开了一种高校中文知识图谱构建系统及其方法，具体涉及知识图谱领域，包括区域划分模块、多源异构数据采集模块、数据预处理模块、知识图谱构建模块、知识图谱质量分析模块、对象接收程度分析模块、系统偏差值判断模块、系统偏差值修正模块以及人工交互模块；本发明专利技术提供一种高校中文知识图谱构建系统及其方法，基于知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，通过高校中文知识图谱构建系统前端交互页面，输入偏差值进行数据交互实现对应偏差值的调整，极大地提高了产品的可维护性、可靠性。可靠性。可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种高校中文知识图谱构建系统及其方法

[0001]本专利技术涉及知识图谱
，更具体地说，本专利技术涉及一种高校中文知识图谱构建系统及其方法。

技术介绍

[0002]知识图谱是结构化的语义知识库，将非结构化数据、半结构化数据、结构化数据转化为三元组，描述物理世界中的概念及其相互关系；通过知识图谱可以将信息、数据以及链接关系聚集为知识，使信息资源更易于计算、理解以及评价，并能实现知识的快速响应和推理。
[0003]现有的传统中文教育知识图谱构建系统以学科知识为核心，建立各个学科的知识点概念，建立层级关系，知识点与知识点之间的关联关系，不同知识点之间的前后序关系，构建学科知识图谱。通过这个图谱，可以把知识点之间的关系，通过可视化的形式展示给学生，可以很好地用来帮助学生构建知识体系，查阅知识要点，帮助学生做总结沉淀，消灭知识盲区；教师可以基于图谱有针对性地教学备课。
[0004]但是其在实际使用时，仍旧存在较多缺点，具体如下：
[0005]构建知识图谱的大部分数据来源需要众包标注，需要人工进行数据标注，为知识图谱的构建做相应数据基础，急切需要确定知识图谱用于教育学习的可靠性；而对于不同教育层次的教师和学生来说，使用系统时的接收程度也成为一个重要因素，在具体教育学习阶段，不同教育层次的各学科之间存在一定的偏差值，而现有的教育知识图谱构建系统无法进行有针对性地调整，使系统维护起来极其吃力，各个教育层次的群体对象对系统的使用率下降，从而极大地降低了产品的可维护性、可靠性。

技术实现思路

>[0006]为了克服现有技术的上述缺陷，本专利技术提供一种高校中文知识图谱构建系统及其方法，基于知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，通过高校中文知识图谱构建系统前端交互页面，输入偏差值进行数据交互实现对应偏差值的调整，提升各个教育层次的群体对象对系统的使用率，极大地提高了产品的可维护性、可靠性，以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的，本专利技术提供如下技术方案：
[0008]区域划分模块：用于获取目标区域位置，按照教育层次相同时间段划分n个区域，分别记作A1,A2,...,A
n
；
[0009]多源异构数据采集模块：用于采集目标区域内各子区域内语文、数学、历史学科的文字、图片以及声音数据，并传输至数据预处理模块；
[0010]数据预处理模块：接受多源异构数据采集模块传输的数据，将采集的各子区域语文、数学以及历史学科数据通过n次试验检测出ε次错误，分别记作为a
ε
，b
ε
，c
ε
，计算得出语文、数学以及历史学科的置信度，其中ε≤n；
[0011]知识图谱构建模块：用于根据目标区域将数据预处理模块的各学科置信度和预定义的置信度阈值进行对比，筛选出置信度高于置信度阈值的数据储存在数据库，并将其转化为实体、属性以及实体间的相互关系，并对其进行整合，消除矛盾和歧义，通过可视化的形式展示，构建不同教育层次的各学科知识图谱；
[0012]知识图谱质量分析模块：用于计算知识图谱质量评估指数，并将其数据传输至系统偏差值判断模块；
[0013]对象接收程度分析模块：用于分析群体对象对高校中文知识图谱构建系统的群体对象接收程度系数，根据群体对象接收程度系数对应阈值，从而筛选出接收程度小于最高程度的群体对象；其中将对象接收程度划分为P1、P2、P3个等级，分别代表的是最低程度、中等程度和最高程度，对应的阈值记作为p
1阈
，p
2阈
，p
3阈
；
[0014]系统偏差值判断模块：用于接受知识图谱质量分析模块和对象接收程度分析模块的知识图谱质量评估指数、群体对象接收程度系数，计算得出各学科知识图谱质量评估指数偏差值m，各学科群体对象接收程度系数偏差值v，将各个学科不同教育层次计算出的知识图谱质量评估指数偏差值m和预定义的知识图谱质量评估指数偏差值阈值m阈进行对比，群体对象接收程度系数v和预定义的群体对象接收程度系数阈值v阈进行对比；
[0015]系统偏差值修正模块：用于接收系统偏差值判断模块的知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，通过高校中文知识图谱构建系统前端交互页面，输入偏差值进行数据交互实现对应偏差值的调整，传输至人机交互模块；
[0016]人机交互模块：用于基于高校中文知识图谱构建系统的知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，将最终信息传输至网络终端并进行信息交互和确认。
[0017]在一个优选的实施方式中，所述划分区域主要以教育层次来划分，其中每个区域针对呈正态分布状随机分布。
[0018]在一个优选的实施方式中，所述多源异构数据采集模块具体采集方式为：
[0019]将目标区域内各子区域通过爬虫技术以及图片识别方式收集到的语文、数学以及历史学科的数据分别标记为a
i
,b
i
,c
i
，其中i＝1,2，...,n，i表示为第i个子区域编号。
[0020]在一个优选的实施方式中，所述数据预处理模块的置信度计算公式为：
[0021]其中p表示为单次错误发生的概率，ε表示为错误次数，λ表示为影响因子；
[0022]根据置信度计算公式，计算出语文、数学、历史学科的置信度分别记作为Oa
ε
，Ob
ε
，Oc
ε
；
[0023]在一个优选的实施方式中，所述知识图谱质量分析模块的具体分析方式为：
[0024]根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识正确率计算公式为：
[0025]其中б表示为知识正确率，x
i
表示为所采用的样
本x1,x2,...,x
n
的均值，λ表示为影响因子；
[0026]根据学科知识正确率计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识正确率分别记作бa，бb，бc；
[0027]根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识覆盖率计算公式为：
[0028]其中ε表示为知识覆盖率，f
i
表示为符合条件的样本数，F表示为总样本数，λ表示为影响因子；
[0029]根据学科知识覆盖率计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识覆盖率分别记作εa，εb，εc；
[0030]根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识一致性系数计算公式为：
[0031]其中p表示为知识一致性系数，λ表示为影响因子；
[0032]根据学科知识一致性系数计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识一致性系数分别记作pa，pb，pc；
[0033]根据高校中文知识图本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高校中文知识图谱构建系统，其特征在于，包括：区域划分模块：用于获取目标区域位置，按照教育层次相同时间段划分n个区域，分别记作A1,A2,...,A
n
；多源异构数据采集模块：用于采集目标区域内各子区域内语文、数学、历史学科的文字、图片以及声音数据，并传输至数据预处理模块；数据预处理模块：接受多源异构数据采集模块传输的数据，将采集的各子区域语文、数学以及历史学科数据通过n次试验检测出ε次错误，分别记作为a
ε
，b
ε
，c
ε
，计算得出语文、数学以及历史学科的置信度，其中ε≤n；知识图谱构建模块：用于根据目标区域将数据预处理模块的各学科置信度和预定义的置信度阈值进行对比，筛选出置信度高于置信度阈值的数据储存在数据库，并将其转化为实体、属性以及实体间的相互关系，并对其进行整合，消除矛盾和歧义，通过可视化的形式展示，构建不同教育层次的各学科知识图谱；知识图谱质量分析模块：用于计算知识图谱质量评估指数，并将其数据传输至系统偏差值判断模块；对象接收程度分析模块：用于分析群体对象对高校中文知识图谱构建系统的群体对象接收程度系数，根据群体对象接收程度系数对应阈值，从而筛选出接收程度小于最高程度的群体对象；其中将对象接收程度划分为P1、P2、P3个等级，分别代表的是最低程度、中等程度和最高程度，对应的阈值记作为p
1阈
，p
2阈
，p
3阈
；系统偏差值判断模块：用于接受知识图谱质量分析模块和对象接收程度分析模块的知识图谱质量评估指数、群体对象接收程度系数，计算得出各学科知识图谱质量评估指数偏差值m，各学科群体对象接收程度系数偏差值v，将各个学科不同教育层次计算出的知识图谱质量评估指数偏差值m和预定义的知识图谱质量评估指数偏差值阈值m阈进行对比，群体对象接收程度系数v和预定义的群体对象接收程度系数阈值v阈进行对比；系统偏差值修正模块：用于接收系统偏差值判断模块的知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，通过高校中文知识图谱构建系统前端交互页面，输入偏差值进行数据交互实现对应偏差值的调整，传输至人机交互模块；人机交互模块：用于基于高校中文知识图谱构建系统的知识图谱质量评估指数偏差值和群体对象接收程度系数的偏差值，将最终信息传输至网络终端并进行信息交互和确认。2.根据权利要求1所述的一种高校中文知识图谱构建系统，其特征在于：所述划分区域主要以教育层次来划分，其中每个区域针对呈正态分布状随机分布。3.根据权利要求1所述的一种高校中文知识图谱构建系统，其特征在于：所述多源异构数据采集模块具体采集方式为：将目标区域内各子区域通过爬虫技术以及图片识别方式收集到的文字数据、图片数据、声音数据分别标记为a
i
,b
i
,c
i
，其中i＝1,2，...,n，i表示为第i个子区域编号。4.根据权利要求1所述的一种高校中文知识图谱构建系统，其特征在于：所述数据预处理模块的置信度计算公式为：其中p表示为单次错误发生的概率，ε表
示为错误次数，λ表示为影响因子；根据置信度计算公式，计算出语文、数学、历史学科的置信度分别记作为Oa
ε
，Ob
ε
，Oc
ε
。5.根据权利要求1所述的一种高校中文知识图谱构建系统，其特征在于：所述知识图谱质量分析模块的具体分析方式为：根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识正确率计算公式为：其中б表示为知识正确率，x
i
表示为所采用的样本x1,x2,...,x
n
的均值，λ表示为影响因子；根据学科知识正确率计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识正确率分别记作бa，бb，бc；根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识覆盖率计算公式为：其中ε表示为知识覆盖率，f
i
表示为符合条件的样本数，F表示为总样本数，λ表示为影响因子；根据学科知识覆盖率计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识覆盖率分别记作εa，εb，εc；根据高校中文知识图谱构建系统构建的知识图谱，计算得出目标区域的学科知识一致性系数计算公式为：其中p表示为知识一致性系数，λ表示为影响因子；根据学科知识一致性系数计算公式，将对应学科代入其计算公式，计算得到语文、数学、历史对应的知识一致性系数分别记作pa，pb，pc；根据高校中文知识图谱构建系统构建的知识图谱的学科知识正确率、学科知识覆盖率以及学科知识一致性系数，计算得出目标区域的知识图谱质量评估指数的计算公式为：其中Q表示为知识图谱质量评估指数，x
i
表示为所采用的样本x1,x2,...,x
n
的均值，f
i
表示为符合条件的样本数，F表示为总样本数，λ表示为影响因子；根据质量评估指数计算公式，将对应学科的学科知识正确率、学科知识覆盖率以及学
科知识一致性系数代入其计算公式，计算得到语文、数学、历史对应的质量评估指数分别记作Qa，Qb，Qc。6.根据权利要求1所述的一种高校中文知识图谱构建系统，其特征在于：所述对象接收程度分析模块的群体对象接收程度系数...

【专利技术属性】
技术研发人员：苏芊芊，闫振宇，席宇，
申请(专利权)人：长春人文学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人