知识图谱构建系统技术方案

技术编号:14080266 阅读:226 留言:0更新日期:2016-11-30 16:33
本发明专利技术属于大规模数据挖掘技术领域,具体涉及一种知识图谱构建系统。本发明专利技术知识图谱构建系统,包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库;该爬虫集群用于根据种子地址,抓取网页数据,并将网页数据存储在网页HBase表中;自然语言处理集群用于从该Hadoop分布式存储集群中获取该网页HBase表,生成原始知识信息,并将该原始知识信息存储在原始知识HBase表中;该Mahout知识挖掘模块用于对该原始知识信息进行知识挖掘,生成非结构化数据,并将该非结构化数据存储在非结构化数据HBase表中;知识数据库用于根据经过人工审核的该非结构化数据构建知识图谱。

【技术实现步骤摘要】

本专利技术属于大规模数据挖掘
,具体涉及一种知识图谱构建系统
技术介绍
知识图谱的构建对于智能对话知识性问题的理解与准确回答有着极大的作用;因此对于对话系统的后台,如何快速有效的从大量的规则和不规则数据中挖掘出有价值的知识信息,成为构建知识图谱的关键。这其中需要通过爬虫进行海量相关数据的抓取和存储;对后台抓取的数据进行数据处理,提取相关的信息;对于提取的信息,结构化的数据可以以相对简单的方式处理入库。对于非结构化的信息,要通过分词,命名实体识别,文本聚类,文本分类等算法进一步做数据处理;最后通过一系列的数据挖掘算法挖掘诸如频繁项的挖掘等,以一定的方式进入后台的审核系统,在通过人工审核后,入库。目前的工程应用中,或者不存在知识发现到入库这一完整的知识图谱全生命周期系统设计;或者已有的系统设计在处理海量数据时效率偏低,难以满足大规模知识挖掘和知识发现的应用需求。
技术实现思路
针对现有的大规模知识挖掘和知识发现应用中系统设计不佳导致的效率偏低问题,本专利技术提出一种知识图谱构建系统。本专利技术提出的知识图谱构建系统可以快速构建知识发现和知识入库的体系架构。本专利技术提出的知识图谱构建系统,包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库;该爬虫集群用于根据种子地址,抓取网页数据,并将该网页数据存储在网页HBase表中,该网页HBase表存储在该Hadoop分布式存储集群中;该自然语言处理集群用于从该Hadoop分布式存储集群中获取该网页HBase表,生成原始知识信息,并将该原始知识信息存储在原始知识HBase表中,该原始知识HBase表存储在该Hadoop分布式存储集群中;该Mahout知识挖掘模块用于对该原始知识信息进行知识挖掘,生成非结构化数据,并将该非结构化数据存储在非结构化数据HBase表中,该非结构化数据HBase表存储在该Hadoop分布式存储集群中;该知识数据库用于根据经过人工审核的该非结构化数据构建知识图谱。进一步地,本专利技术提出的知识图谱构建系统,还包括知识审核模块;该知识审核模块用于获取该非结构化数据,并获取对应于该非结构化数据的人工审核信息,并在人工审核信息为审核通过时,将该非结构化数据发送给该知识数据库。进一步地,本专利技术提出的知识图谱构建系统,还包括结构化数据处理模块;该结构化处理模块用于利用Jsoup工具从该网页数据中提取结构化数据,并发送给该知识数据库;该知识数据库还用于根据该结构化数据构建该知识图谱。进一步地,本专利技术提出的知识图谱构建系统,该爬虫集群包括多个爬虫服务器节点;该Hadoop分布式存储集群还用于存储HBase逻辑分表;每个该爬虫服务器节点用于根据从该HBase逻辑分表获取的第一组种子表抓取网页数据,并将该网页数据存储在该网页HBase表中;该第一组种子表中包括多个待抓取的URL;该HBase逻辑分表中包括该多个爬虫服务器节点待抓取的URL的总和。进一步地,本专利技术提出的知识图谱构建系统,每个该爬虫服务器节点还用于在完成该第一组种子表后,根据从该HBase逻辑分表获取的第二组种子表抓取网页数据;该HBase逻辑分表在检测到该第一组种子表完成后立即被更新。进一步地,本专利技术提出的知识图谱构建系统,该爬虫集群还包括一个安装有Ansible的运维服务器节点;该运维服务器节点与该多个爬虫服务器节点连接。进一步地,本专利技术提出的知识图谱构建系统,该Hadoop分布式存储集群还包括Map/Reduce运算模块;该Map/Reduce运算模块用于对该种子表,该HBase逻辑分表和/或该网页HBase表进行统计和更新。进一步地,本专利技术提出的知识图谱构建系统,该自然语言处理集群包括至少一个自然语言处理服务器节点,该自然语言处理服务器节点配置有HanNLP工具。进一步地,本专利技术提出的知识图谱构建系统,该知识数据库为配置有Jena图关系数据库的Hadoop集群。本专利技术提出的知识图谱构建系统基于Hadoop平台,应用HBase数据库、Mahout知识挖掘算法实现了从大数据抓取、大数据挖掘到人工审核知识入库的整个系统构建。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1示出了本专利技术实施例知识图谱构建系统的组成示意图;图2示出了本专利技术实施例知识图谱构建系统实现知识审核时的组成示意图;图3示出了本专利技术实施例知识图谱构建系统处理结构化数据时的组成示意图;图4示出了本专利技术实施例知识图谱构建系统设置有运维工具和统计工具时的组成示意图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。需要说明的是,Hadoop平台、Mahout算法、Jsoup工具、HanNLP工具、Jena图关系数据库、HBase数据库支持的各HBase表;Map/Reduce并行运算框架、Ansible运维工具、LNMP分别具有本专利技术所属领域技术人员所理解的通常意义,这里不再赘述。实施例如图1所示,本实施例知识图谱构建系统,包括爬虫集群10、Hadoop分布式存储集群20、自然语言处理集群50、Mahout知识挖掘模块30和知识数据库40;爬虫集群10用于根据种子地址,抓取网页数据,并将网页数据存储在网页HBase表中,网页HBase表存储在Hadoop分布式存储集群中;自然语言处理集群50用于从Hadoop分布式存储集群中获取网页HBase表,生成原始知识信息,并将原始知识信息存储在原始知识HBase表中,原始知识HBase表存储在Hadoop分布式存储集群中;Mahout知识挖掘模块30用于对原始知识信息进行知识挖掘,生成非结构化数据,并将非结构化数据存储在非结构化数据HBase表中,非结构化数据HBase表存储在Hadoop分布式存储集群中;知识数据库40用于根据经过人工审核的非结构化数据构建知识图谱。需要说明的是,每个爬虫节点会根据自己的机器名在hbase中生成属于自己的独一无二的url种子表和对应的存放抓取网页的表,也即url种子表是由爬虫节点自行生成的,而不是由统一的爬虫集群管理工具根据每个爬虫集群的机器名为之统一分配的。对应的存放抓取网页的表是由爬虫节点自行生成的,并存储在Hadoop分布式存储集群中。需要说明的是,具体实施时,本实施例知识图谱构建系统中的Mahout知识挖掘模块30和知识数据库40,可以分别单独设置,也可以设置在Hadoop分布式存储集群20中,也可以组合实施并完成组合后的功能。但是,Mahout知识挖掘模块30和知识数据库40目前都是基于Hadoop平台的,以实现较好的兼容性。需要说明的是,Mahout算法工具是基于hadoop平台的一个算法包Mahout算法工具应用与自然语言处理集群是分开的,可以应用在知识挖掘模块及应用在频繁规则发现的算法本文档来自技高网...
知识图谱构建系统

【技术保护点】
一种知识图谱构建系统,其特征在于,包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库;所述爬虫集群用于根据种子地址,抓取网页数据,并将所述网页数据存储在网页HBase表中,所述网页HBase表存储在所述Hadoop分布式存储集群中;所述自然语言处理集群用于从所述Hadoop分布式存储集群中获取所述网页HBase表,生成原始知识信息,并将所述原始知识信息存储在原始知识HBase表中,所述原始知识HBase表存储在所述Hadoop分布式存储集群中;所述Mahout知识挖掘模块用于对所述原始知识信息进行知识挖掘,生成非结构化数据,并将所述非结构化数据存储在非结构化数据HBase表中,所述非结构化数据HBase表存储在所述Hadoop分布式存储集群中;所述知识数据库用于根据经过人工审核的所述非结构化数据构建知识图谱。

【技术特征摘要】
1.一种知识图谱构建系统,其特征在于,包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库;所述爬虫集群用于根据种子地址,抓取网页数据,并将所述网页数据存储在网页HBase表中,所述网页HBase表存储在所述Hadoop分布式存储集群中;所述自然语言处理集群用于从所述Hadoop分布式存储集群中获取所述网页HBase表,生成原始知识信息,并将所述原始知识信息存储在原始知识HBase表中,所述原始知识HBase表存储在所述Hadoop分布式存储集群中;所述Mahout知识挖掘模块用于对所述原始知识信息进行知识挖掘,生成非结构化数据,并将所述非结构化数据存储在非结构化数据HBase表中,所述非结构化数据HBase表存储在所述Hadoop分布式存储集群中;所述知识数据库用于根据经过人工审核的所述非结构化数据构建知识图谱。2.根据权利要求1所述的知识图谱构建系统,其特征在于,还包括知识审核模块;所述知识审核模块用于获取所述非结构化数据,并获取对应于所述非结构化数据的人工审核信息,并在人工审核信息为审核通过时,将所述非结构化数据发送给所述知识数据库。3.根据权利要求1所述的知识图谱构建系统,其特征在于,还包括结构化数据处理模块;所述结构化处理模块用于利用Jsoup工具从所述网页数据中提取结构化数据,并发送给所述知识数据库;所述知识数据库还用于根据所述结构化数据构建所述知识图谱。4.根据权利要求1所述的知识图谱构建系统,其特征在于...

【专利技术属性】
技术研发人员:刘涛祖佺
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1