一种基于DeepDive技术构建K12教育知识图谱的方法技术

技术编号:23932965 阅读:36 留言:0更新日期:2020-04-25 02:07
本发明专利技术公开了一种基于DeepDive技术构建K12教育知识图谱的方法,包括以下步骤,S1、输入文章,输入到DeepDive深度学习框架中;S2、挖掘知识点,DeepDive分解得到的知识点存储到csv文件中;S3、关系、特征的提取,从csv文件中提取出他们的特征和关系;S4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法计算知识点之间的相关性;S5、绘制知识图谱,将知识点之间的相关性输入到NEO4J工具中,进行构造成知识图谱;本发明专利技术使用DeepDive技术可以提高获取结构化数据的效率;使用量化的数据计算知识点之间的关系,可以提高知识图谱的精确度;通过对比数据库中已有知识点提取出文章中知识点。

A method of constructing k12 education knowledge map based on deepdive Technology

【技术实现步骤摘要】
一种基于DeepDive技术构建K12教育知识图谱的方法
本专利技术涉及计算机科学
,具体为一种基于DeepDive技术构建K12教育知识图谱的方法。
技术介绍
随着计算机的发展,人们在计算机的使用上越来越丰富,对于计算机的研究也越来越深层次了,并且将计算机运用到对知识点的筛选上,即是通过计算机绘制知识图谱,知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。DeepDive是一种抽取文本知识之间关系的技术。现有技术也在使用一些内置的模型,并有自己的API,它们已经完成了产品推荐、工作推荐、工作列表和一些个人细节的搜索以及教育领域的工作。教育领域正在进行更多的研究工作,但它们没有提供良好的准确性。因此,我们提出了使用deepdive技术提取知识点之间的关系,通过大量的文章数据计算他们之间的相关度,来提高精度。
技术实现思路
本专利技术的目的在于提供一种基于DeepDive技术构建K12教育知识图谱的方法,具有DeepDive技术提高获取结构化数据的效率;使用量化的数据计算知识点之间的关系,提高知识图谱的精确度;通过数据库中已有知识点与文章中知识点的对比的方式提取出知识点等优点,用以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于DeepDive技术构建K12教育知识图谱的方法,包括如下步骤:<br>S1、输入文章,首先利用scrapy爬虫技术从网站上抓取文章,然后通过beautifulsoup从HTML和XML文件中提取数据,再将这些文章输入到DeepDive深度学习框架中;S2、挖掘知识点,DeepDive通过执行NLP函数将输入的文章拆分成句子,再进行分词,词性标注、语法依赖,再将知识点与数据库中的已有知识点进行对比,输出相同知识点,并将分解得到的知识点存储到csv文件中;S3、关系、特征的提取,从csv文件中提取出他们的特征和关系,经过一系列的筛选和整合操作,最终获取到符合要求的知识点;S4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法,开始计算所得到的知识点之间的相关性;S5、绘制知识图谱,最后将知识点之间的相关性输入到NEO4J工具中,进行构造成知识图谱。所述步骤S1中beautifulsoup是一个用于从HTML和XML文件中提取数据的Python库,且能够获取单个的URL并剪切指定的数据;scrapy是一个用Python编写的免费开源的Web爬行框架。所述步骤S2中DeepDive从文本文档中的暗数据提取有价值的数据;DeepDive将非结构化信息中创建结构化数据SQL表,并将这些数据与现有的结构化数据库集成,提取有用的知识点。所述步骤S2中使用DeepDive技术提取出知识点,并作为输入,再根据分离结果,删除所有不必要的数据,将数据转换成键值对的形式,然后转换为所需的规范,即不同的密钥包含相同的值,因此我们将包含相同值的密钥组合在一起,从获得的结果中删除单个字符和特殊符号。所述关键字的所有单词和字符,即所选关键字中除复数形式外的任何单词与末尾的最后一个字符相同,则该单词将移动到新列表中,将新列表与标记文件(句子)进行比较,如果新列表的单个单词位于标记文件(句子)中,则考虑该句子;且一直重复到所有句子都完成,将所有的句子合并成一个列表,并计算出句子列表中每个单词的出现次数;再次将新列表与句子列表进行比较,通过创建新的列表,将新列表和句子列表中常见的单词分开。所述新获得的列表中,采用word2vec技术,查找单词之间的相关性,并用neo4j技术展示知识图谱。所述知识数据转换成知识矩阵,且将数据键值对整理成知识之间的关系矩阵。所述步骤S4中的不同层级知识点相关性计算:假设a,b,c,d四个知识点都在同一个知识点N下,那么知识点N出现的次数为包含abcd四个知识点的文章数量,a与N的关系即a出现的次数/N出现的次数;同层级知识点相关性计算:a,b两知识点的计算公式为log2(p(ab)/(p(a)*p(b))),其中p(ab)为ab同时出现的次数,p(a)为a出现的次数,p(b)为b出现的次数。所述步骤S5中的Neo4j是一个高性能的,NOSQL图形数据库,能够将结构化数据存储在网络上而不是表中;是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,Neo4j也可以被看作是一个高性能的图引擎。与现有技术相比,本专利技术的有益效果是:本专利技术使用DeepDive将非结构化数据转换为结构化数据的基础框架,从暗数据中提取有价值的数据,DeepDive技术提取出知识点,分离结果,删除所有不必要的数据,将数据转换成键值对的形式,将包含相同值的密钥组合在一起,删除结果中单个字符和特殊符号,进而使得DeepDive技术可以提高获取结构化数据的效率;使用量化的数据计算知识点之间的关系,即不同层级知识点相关性计算和同层级知识点相关性计算方法,可以提高知识图谱的精确度;通过数据库中已有知识点与文章中知识点的对比的方式提取出知识点。附图说明图1为本专利技术的方法流程示意框图。具体实施方式下面将结合本专利技术实例中的附图,对本专利技术实例中的技术方案进行清楚、完整地描述。所描述的实例仅仅是本专利技术的一部分实例,而不是全部的实例。基于本专利技术中的实例,本领域其他人员在没有做出创造性改变前提下所获得的所有其他实例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于DeepDive技术构建K12教育知识图谱的方法,包括如下步骤:S1、输入文章,首先利用scrapy爬虫技术从网站上抓取文章,然后通过beautifulsoup从HTML和XML文件中提取数据,再将这些文章输入到DeepDive深度学习框架中;S2、挖掘知识点,DeepDive通过执行NLP函数将输入的文章拆分成句子,再进行分词,词性标注、语法依赖,再将知识点与数据库中的已有知识点进行对比,输出相同知识点,并将分解得到的知识点存储到csv文件中;S3、关系、特征的提取,从csv文件中提取出他们的特征和关系,经过一系列的筛选和整合操作,最终获取到符合要求的知识点;S4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法,开始计算所得到的知识点之间的相关性;S5、绘制知识图谱,最后将知识点之间的相关性输入到NEO4J工具中,进行构造成知识图谱。所述步骤S1中beautifulsoup是一个用于从HTML和XML文件中提取数据的Python库,且能够获取单个的URL并剪切指定的数据;scrapy是一个用Python编写的免费开源的Web爬行框架,该处的BeautifulSoup能够获取单个的URL并剪切指定的数据,S本文档来自技高网...

【技术保护点】
1.一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:包括如下步骤:/nS1、输入文章,首先利用scrapy爬虫技术从网站上抓取文章,然后通过beautifulsoup从HTML和XML文件中提取数据,再将这些文章输入到DeepDive深度学习框架中;/nS2、挖掘知识点,DeepDive通过执行NLP函数将输入的文章拆分成句子,再进行分词,词性标注、语法依赖,再将知识点与数据库中的已有知识点进行对比,输出相同知识点,并将分解得到的知识点存储到csv文件中;/nS3、关系、特征的提取,从csv文件中提取出他们的特征和关系,经过一系列的筛选和整合操作,最终获取到符合要求的知识点;/nS4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法,开始计算所得到的知识点之间的相关性;/nS5、绘制知识图谱,最后将知识点之间的相关性输入到NEO4J工具中,进行构造成知识图谱。/n

【技术特征摘要】
1.一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:包括如下步骤:
S1、输入文章,首先利用scrapy爬虫技术从网站上抓取文章,然后通过beautifulsoup从HTML和XML文件中提取数据,再将这些文章输入到DeepDive深度学习框架中;
S2、挖掘知识点,DeepDive通过执行NLP函数将输入的文章拆分成句子,再进行分词,词性标注、语法依赖,再将知识点与数据库中的已有知识点进行对比,输出相同知识点,并将分解得到的知识点存储到csv文件中;
S3、关系、特征的提取,从csv文件中提取出他们的特征和关系,经过一系列的筛选和整合操作,最终获取到符合要求的知识点;
S4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法,开始计算所得到的知识点之间的相关性;
S5、绘制知识图谱,最后将知识点之间的相关性输入到NEO4J工具中,进行构造成知识图谱。


2.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述步骤S1中beautifulsoup是一个用于从HTML和XML文件中提取数据的Python库,且能够获取单个的URL并剪切指定的数据;scrapy是一个用Python编写的免费开源的Web爬行框架。


3.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述步骤S2中DeepDive从文本文档中的暗数据提取有价值的数据;DeepDive将非结构化信息中创建结构化数据SQL表,并将这些数据与现有的结构化数据库集成,提取有用的知识点。


4.根据权利要求3所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述步骤S2中使用DeepDive技术提取出知识点,并作为输入,再根据分离结果,删除所有不必要的数据,将数据转换成键值对的形式,然后转换为所需的规范,即不同的密钥包含相同的值,因此我们将包含相同值的密钥组...

【专利技术属性】
技术研发人员:张金刚甘尼什库玛基兰戈达库木达吕玉茂
申请(专利权)人:临沂市拓普网络股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1