一种基于DeepDive技术构建K12教育知识图谱的方法技术

技术编号：23932965 阅读：36 留言：0更新日期：2020-04-25 02:07

本发明专利技术公开了一种基于DeepDive技术构建K12教育知识图谱的方法，包括以下步骤，S1、输入文章，输入到DeepDive深度学习框架中；S2、挖掘知识点，DeepDive分解得到的知识点存储到csv文件中；S3、关系、特征的提取，从csv文件中提取出他们的特征和关系；S4、计算知识相关性，然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法计算知识点之间的相关性；S5、绘制知识图谱，将知识点之间的相关性输入到NEO4J工具中，进行构造成知识图谱；本发明专利技术使用DeepDive技术可以提高获取结构化数据的效率；使用量化的数据计算知识点之间的关系，可以提高知识图谱的精确度；通过对比数据库中已有知识点提取出文章中知识点。

A method of constructing k12 education knowledge map based on deepdive Technology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DeepDive技术构建K12教育知识图谱的方法
本专利技术涉及计算机科学
，具体为一种基于DeepDive技术构建K12教育知识图谱的方法。
技术介绍
随着计算机的发展，人们在计算机的使用上越来越丰富，对于计算机的研究也越来越深层次了，并且将计算机运用到对知识点的筛选上，即是通过计算机绘制知识图谱，知识图谱在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。DeepDive是一种抽取文本知识之间关系的技术。现有技术也在使用一些内置的模型，并有自己的API，它们已经完成了产品推荐、工作推荐、工作列表和一些个人细节的搜索以及教育领域的工作。教育领域正在进行更多的研究工作，但它们没有提供良好的准确性。因此，我们提出了使用deepdive技术提取知识点之间的关系，通过大量的文章数据计算他们之间的相关度，来提高精度。
技术实现思路
本专利技术的目的在于提供一种基于DeepDive技术构建K12教育知识图谱的方法，具有DeepDive技术提高获取结构化数据的效率；使用量化的数据计算知识点之间的关系，提高知识图谱的精确度；通过数据库中已有知识点与文章中知识点的对比的方式提取出知识点等优点，用以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于DeepDive技术构建K12教育知识图谱的方法，包括如下步骤：<...

【技术保护点】
1.一种基于DeepDive技术构建K12教育知识图谱的方法，其特征在于：包括如下步骤：/nS1、输入文章，首先利用scrapy爬虫技术从网站上抓取文章，然后通过beautifulsoup从HTML和XML文件中提取数据，再将这些文章输入到DeepDive深度学习框架中；/nS2、挖掘知识点，DeepDive通过执行NLP函数将输入的文章拆分成句子，再进行分词，词性标注、语法依赖，再将知识点与数据库中的已有知识点进行对比，输出相同知识点，并将分解得到的知识点存储到csv文件中；/nS3、关系、特征的提取，从csv文件中提取出他们的特征和关系，经过一系列的筛选和整合操作，最终获取到符合要求的知识点；/nS4、计算知识相关性，然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法，开始计算所得到的知识点之间的相关性；/nS5、绘制知识图谱，最后将知识点之间的相关性输入到NEO4J工具中，进行构造成知识图谱。/n

【技术特征摘要】
1.一种基于DeepDive技术构建K12教育知识图谱的方法，其特征在于：包括如下步骤：
S1、输入文章，首先利用scrapy爬虫技术从网站上抓取文章，然后通过beautifulsoup从HTML和XML文件中提取数据，再将这些文章输入到DeepDive深度学习框架中；
S2、挖掘知识点，DeepDive通过执行NLP函数将输入的文章拆分成句子，再进行分词，词性标注、语法依赖，再将知识点与数据库中的已有知识点进行对比，输出相同知识点，并将分解得到的知识点存储到csv文件中；
S3、关系、特征的提取，从csv文件中提取出他们的特征和关系，经过一系列的筛选和整合操作，最终获取到符合要求的知识点；
S4、计算知识相关性，然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法，开始计算所得到的知识点之间的相关性；
S5、绘制知识图谱，最后将知识点之间的相关性输入到NEO4J工具中，进行构造成知识图谱。

2.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法，其特征在于：所述步骤S1中beautifulsoup是一个用于从HTML和XML文件中提取数据的Python库，且能够获取单个的URL并剪切指定的数据；scrapy是一个用Python编写的免费开源的Web爬行框架。

3.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法，其特征在于：所述步骤S2中DeepDive从文本文档中的暗数据提取有价值的数据；DeepDive将非结构化信息中创建结构化数据SQL表，并将这些数据与现有的结构化数据库集成，提取有用的知识点。

4.根据权利要求3所述的一种基于DeepDive技术构建K12教育知识图谱的方法，其特征在于：所述步骤S2中使用DeepDive技术提取出知识点，并作为输入，再根据分离结果，删除所有不必要的数据，将数据转换成键值对的形式，然后转换为所需的规范，即不同的密钥包含相同的值，因此我们将包含相同值的密钥组...

【专利技术属性】
技术研发人员：张金刚，甘尼什库玛，基兰戈达，库木达，吕玉茂，
申请(专利权)人：临沂市拓普网络股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人