分布式数据处理平台制造技术

技术编号:11437587 阅读:98 留言:0更新日期:2015-05-08 15:44
本发明专利技术涉及一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;存储层包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;HBase搭建在HDFS之上,用于存储微博的标识与微博数据之间的对应关系;ES中建立有微博关键字段与微博标识之间的对应关系;应用层接收用户终端发送的处理指令,根据处理指令向查询接口与算法库发送对应的查询请求;查询接口与算法库根据查询请求从存储层中查询微博数据;计算层根据处理指令对查询到的微博数据进行处理,将处理结果反馈给应用层,从而通过HBase和ES的配合使用,提高了分布式数据处理平台的查询速度和分析效率,满足微博大数据的要求。

【技术实现步骤摘要】
分布式数据处理平台
本专利技术涉及计算机
,尤其涉及一种分布式数据处理平台。
技术介绍
微博是一种典型的大数据类型,它从诞生到现在,发展迅速,例如,新浪微博的每日发博量已经超过一亿条,尤其在突发和热点事件中,微博的影响规模和传播速度超越了普通博客和传统的新闻媒体。目前,针对微博的企业营销和舆情监测是关注的热点,例如,微博实时查询,统计分析,微博分类,热点检测等。现有技术中,采用Hadoop平台来实现对微博的实时查询、统计分析、微博分类、热点检测等。在Hadoop平台中,微博数据存放在关系型数据库Hbase中。Hadoop平台对微博进行分析时,需要从关系型数据库调取微博数据,基于磁盘对微博数据进行捕捉分析和计算,然后存储至关系型数据库中。然而现有技术中,从关系型数据库调取微博数据,需要根据微博数据的ID等标识顺序查询各对应关系,才能查询到微博数据,从而导致采用Hadoop平台来对微博进行查询分析时的查询速度慢,而磁盘对微博数据进行捕捉分析和计算,分析效率低,难以满足微博大数据的要求。
技术实现思路
本专利技术提供一种分布式数据处理平台,用于解决现有技术中Hadoop平台分析效率低的问题。本专利技术的第一个方面是提供一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;所述存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;所述HBase数据库系统搭建在所述HDFS之上,用于存储微博的标识与微博数据之间的对应关系;所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;所述应用层,用于接收用户终端发送的处理指令,根据所述处理指令向所述查询接口与算法库发送对应的查询请求,所述查询请求中携带微博的标识或微博关键字段;所述查询接口与算法库,用于根据所述查询请求从存储层中查询微博数据;所述计算层,用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到处理结果,将所述处理结果反馈给所述应用层。进一步地,所述应用层包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;所述微博搜索组件用于从用户终端接收所述微博搜索指令,根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求;所述统计分析组件用于从用户终端接收所述统计分析指令,根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求;所述微博分类组件用于从用户终端接收所述微博分类指令,根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求;所述事件检测组件用于从用户终端接收所述事件检测指令,根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求。进一步地,所述查询接口与算法库,包括:统一查询接口、Shark查询引擎和Mahout算法集合;所述统一查询接口用于从应用层的各组件中接收查询请求,根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。进一步地,所述计算层具体用于,调用所述查询接口与算法库中的Mahout算法集合,根据所述各组件的处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到与所述处理指令对应的处理结果,将所述处理结果通过所述统一查询接口反馈给与所述处理指令对应的组件。进一步地,所述微博数据包括:微博信息数据、用户数据、评论数据和转发关系数据。进一步地,所述微博信息数据中包括:每条微博的ID、来源、创建时间、地理信息、微博作者ID、微博配图、微博内容、转发的上一级微博的ID、转发的根微博的ID、转发数量、评论数量和点赞数量中的任意一种或多种参数;所述微博信息数据以微博ID和微博创建时间为标识存储在所述HBase数据库系统中。进一步地,所述用户数据中包括:用户UID、微博昵称、省份、城市、地址、个人描述、用户博客地址、自定义图像、性别、用户个性化URL、粉丝数、关注数、微博数、收藏数、创建时间、是否微博认证用户、认证类型、互粉数、备注信息、用户语言版本、认证原因;所述用户数据以用户UID为标识存储在所述HBase数据库系统中。进一步地,所述评论数据中包括:评论ID、评论针对的原始微博ID、发布评论的用户UID、评论的内容、评论发布时间、评论的来源;所述评论数据以评论ID、评论针对的原始微博ID和评论发布时间为标识存储在所述HBase数据库系统中。进一步地,所述转发关系数据中包括:原始微博ID,原始微博的各个转发微博的ID以及其对应的上一级微博ID;所述转发关系数据以所述原始微博ID为标识存储在所述HBase数据库系统中。本专利技术中,提供一种分布式数据处理平台,包括:存储层、计算层、查询接口与算法库,以及应用层;存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;HBase数据库系统搭建在HDFS之上,用于存储微博的标识与微博数据之间的对应关系;分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;应用层,用于接收用户终端发送的处理指令,根据处理指令向查询接口与算法库发送对应的查询请求,查询请求中携带微博的标识或微博关键字段;查询接口与算法库,用于根据查询请求从存储层中查询微博数据;计算层,用于根据处理指令对查询接口与算法库查询到的微博数据进行处理,得到处理结果,将处理结果反馈给应用层,从而在HBase数据库系统和分布式索引系统ES的配合使用下,提高分布式数据处理平台查询微博的速度和对微博进行分析的效率,能够满足微博大数据的要求。附图说明图1为本专利技术提供的分布式数据处理平台实施例的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术提供的分布式数据处理平台实施例的结构示意图,如图1所示,包括:存储层11、计算层12、查询接口与算法库13,以及应用层14;存储层11,包括:分布式文件系统(HadoopDistributedFileSystem,HDFS)111、数据库系统(HadoopDatabase,HBase)112和分布式索引系统(ElasticSearch,ES)113;HBase数据库系统112搭建在HDFS111之上,用于存储微博的标识与微博数据之间的对应关系;分布式索引系统ES113中建立有微博关键字段与微博标识之间的对应关系;应用层14,用于接收用户终端发送的处理指令,根据处理指令向查询接口与算法库13发送对应的查询请求,查询请求中携带微博的标识或微博关键字段;查询接口与算法库13,用于根据查询请求从存储层11中查询微博数据;计算层12,用于根据处理指令对查询接口与算法库13查询到的微博数据进行处理,得到处理结果,将处理结果反馈给应用层14。其中,应用层具体可以14包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;对应的,处理指令具体可以为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;微博搜索组件用于从用户终本文档来自技高网...
分布式数据处理平台

【技术保护点】
一种分布式数据处理平台,其特征在于,包括:存储层、计算层、查询接口与算法库,以及应用层;所述存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;所述HBase数据库系统搭建在所述HDFS之上,用于存储微博的标识与微博数据之间的对应关系;所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;所述应用层,用于接收用户终端发送的处理指令,根据所述处理指令向所述查询接口与算法库发送对应的查询请求,所述查询请求中携带微博的标识或微博关键字段;所述查询接口与算法库,用于根据所述查询请求从存储层中查询微博数据;所述计算层,用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到处理结果,将所述处理结果反馈给所述应用层。

【技术特征摘要】
1.一种分布式数据处理平台,其特征在于,包括:存储层、计算层、查询接口与算法库,以及应用层;所述存储层,包括:分布式文件系统HDFS、HBase数据库系统和分布式索引系统ES;所述HBase数据库系统搭建在所述HDFS之上,用于存储微博的标识与微博数据之间的对应关系;所述分布式索引系统ES中建立有微博关键字段与微博标识之间的对应关系;所述应用层,用于接收用户终端发送的处理指令,根据所述处理指令向所述查询接口与算法库发送对应的查询请求,所述查询请求中携带微博的标识或微博关键字段;所述查询接口与算法库,用于根据所述查询请求从存储层中查询微博数据;所述计算层,用于根据所述处理指令对所述查询接口与算法库查询到的微博数据进行处理,得到处理结果,将所述处理结果反馈给所述应用层;所述应用层包括:微博搜索组件、统计分析组件、微博分类组件和事件检测组件;所述处理指令为微博搜索指令、统计分析指令、微博分类指令或者事件检测指令;所述微博搜索组件用于从用户终端接收所述微博搜索指令,根据所述微博搜索指令向所述查询接口与算法库发送对应的查询请求;所述统计分析组件用于从用户终端接收所述统计分析指令,根据所述统计分析指令向所述查询接口与算法库发送对应的查询请求;所述微博分类组件用于从用户终端接收所述微博分类指令,根据所述微博分类指令向所述查询接口与算法库发送对应的查询请求;所述事件检测组件用于从用户终端接收所述事件检测指令,根据所述事件检测指令向所述查询接口与算法库发送对应的查询请求;所述查询接口与算法库,包括:统一查询接口、Shark查询引擎和Mahout算法集合;所述统一查询接口用于从应用层的各组件中接收查询请求,根据所述查询请求调用Shark查询引擎从存储层中查询微博数据。2.根据权利要求1所述的分布式数据处理平台,其特征在于,所述计算层包括:基于内存的Spar...

【专利技术属性】
技术研发人员:沃天宇孙承根吴博于伟仁李建欣
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1