【技术实现步骤摘要】
一种实时知识图谱构建系统
本专利技术涉及图分析平台
,具体为一种实时知识图谱构建系统。
技术介绍
Kafka是一种开源流处理平台,由Scala和Java编写,是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据,这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素,这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决,对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。在现有技术中,在实际的实时图谱构建领域的应用很少,基本上是T+1(一天构建一次图谱关系),因此无法实现一次性提取出精确的知识提取结果,难以很好的适应对数据准确性要求较高的业务,同时知识提取存在较高的延迟,容易出现知识提取数据丢失或者重复的情况,支持和考虑的数据源较少,方案的扩展性不高,给使用者的使用带来不便。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了 ...
【技术保护点】
1.一种实时知识图谱构建系统,其特征在于:包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块;其中每个部分的具体工作如下:A1、数据源模块负责数据采集并接入KAFKA消息队列;B1、源数据总线负责传输需要提取实体/关系的基础数据;C1、知识提取模块负责用Spark Streaming消费KAFKA中的基础数据进行实体提取、关系提取;D1、知识总线负责传输Spark Streaming提取完成的实体/关系数据;E1、知识消费模块负责消费KAFKA中的实体/关系数据写入对应的外部存储为实时图查询提供查询数据;F1、应用程序部分负责各种实时查询场景的图 ...
【技术特征摘要】
1.一种实时知识图谱构建系统,其特征在于:包括应用程序部分、知识存储模块、知识消费模块、知识总线、数据源总线和数据源模块;其中每个部分的具体工作如下:A1、数据源模块负责数据采集并接入KAFKA消息队列;B1、源数据总线负责传输需要提取实体/关系的基础数据;C1、知识提取模块负责用SparkStreaming消费KAFKA中的基础数据进行实体提取、关系提取;D1、知识总线负责传输SparkStreaming提取完成的实体/关系数据;E1、知识消费模块负责消费KAFKA中的实体/关系数据写入对应的外部存储为实时图查询提供查询数据;F1、应用程序部分负责各种实时查询场景的图查询;所述数据源总线内设置有KAFKA集群1,所述KAFKA集群1由Server1-3组成,所述知识总线内设置有KAFKA集群11,所述KAFKA集群1由Server11-13组成,其中每个Server中设置有两个操作单元;所述数据源包括业务服务器日志文件、外部RESTAPI请求、外部数据存储;所述知识消费模块内包括GDB消费者、HBase消费者和ES消费者,三者具体作用如下:A2、HBase消费者程序读取消息队列中的实体/关系写入HBase数据库,供后续查看实体关系详情使用;B2、GDB消费者程序读取消息队列中的实体/关系写入GDB,供后续实时图查询使用;C2、ES消费者读取消息队列中的实体写入Elasticsearch,供后续实时查询时实体的二级索引使用;所述应用程序的K层展开、最短路径、全路径、社区发现等查询场景通过调用ES、GDB、HBase等对应库的API完成图的关系查找及详情查询。其中具体操作流程如下:S1、数据源模块通过Flume/RESTAPI/外部存储获取数据源并将数据源发送至数据源总线,其中Flume通过日志文件获取数据;S2、...
【专利技术属性】
技术研发人员:杨仪军,
申请(专利权)人:北京海致星图科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。