一种在分布式存储系统中统计数据的方法、装置及系统制造方法及图纸

技术编号:14048271 阅读:41 留言:0更新日期:2016-11-23 23:52
本发明专利技术公开了一种在分布式存储系统中统计数据的方法、装置及系统,属于通信领域。所述方法包括:接收查询请求消息,所述查询请求消息携带数据条件;向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。所述装置包括:接收模块、发送模块和汇总模块。所述系统包括:交互服务器和数据服务器。本发明专利技术能够减少网络IO开销以及提高统计效率。

【技术实现步骤摘要】

本专利技术涉及通信领域,特别涉及一种在分布式存储系统中统计数据的方法、装置及系统
技术介绍
HBase数据存储系统是一种分布式存储系统,具有高可靠性、高性能、面向列、可伸缩等特性,利用HBase数据存储系统可以在廉价的PC Server上搭建起大规模结构化存储集群。目前HBase数据存储系统常常用作网站的存储系统,用于存储网站与用户交互中产生的各类网络数据。网站的技术人员为了把握市场需求需要常常对网站中产生的各类网络数据进行统计,根据各类网络数据的统计结果分析市场需求。目前技术人员可以在自己的终端上向网站的HBase数据存储系统发送查询请求消息;HBaes数据存储系统中的各服务器将自身存储的网络数据发送给终端;然后终端接收每个服务器发送的网络数据,从接收的网络数据中找出所需要统计的数据,对找出的数据进行统计得到统计结果。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:目前HBase数据存储系统中的每服务器将自身存储的网络数据发送给终端,导致网络IO(Input Output,输入输出)开销大,另外,由终端对所有数据进行统计,统计效率低下。
技术实现思路
为了减少网络IO开销以及提高统计效率,本专利技术提供了一种在分布式存储系统中统计数据的方法、装置及系统。所述技术方案如下:一种在分布式存储系统中统计数据的方法,所述方法包括:接收查询请求消息,所述查询请求消息携带数据条件;向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服
务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。一种在分布式存储系统中统计数据的装置,所述装置包括:接收模块,用于接收查询请求消息,所述查询请求消息携带数据条件;发送模块,用于向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;汇总模块,用于接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。一种分布式存储系统,所述分布式存储系统包括:交互服务器和多个数据服务器;所述交互服务器,用于接收终端发送的查询请求消息,所述查询请求消息携带数据条件,向分布式存储系统中的数据服务器发送该查询请求消息;接收所述数据服务器返回的统计结果,对接收的各统计结果进行汇总得到最终统计结果;所述数据服务器,用于接收所述交互服务器发送的查询请求消息,从自身存储的数据文件中找出满足所述数据条件的数据,对找出的数据进行统计得到统计结果,向所述交互服务器发送所述统计结果。在本专利技术实施例中,各数据服务器具有统计数据的功能,各数据服务器可以并行的进行数据统计,统计时间由之前的分级缩短到秒级,大大提高了数据统计的效率;另外,各数据服务器只将统计结果返回给交互服务器,再由交互服务器返回给客户端,相比直接返回数据,大大减少网络IO的开销。附图说明图1-1是本专利技术实施例1提供的一种分布式存储系统的网络架构图;图1-2是本专利技术实施例1提供的分区结构示意图;图1-3是本专利技术实施例1提供的合并数据文件示意图;图2是本专利技术实施例2提供的一种在分布式存储系统中统计数据的方法流
程图;图3是本专利技术实施例3提供的一种在分布式存储系统中统计数据的方法流程图;图4是本专利技术实施例4提供的一种在分布式存储系统中统计数据的装置结构示意图;图5是本专利技术实施例5提供的一种服务器结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例1参见图1-1,本专利技术实施例提供了一种分布式存储系统,包括:交互服务器和多个数据服务器,交互服务器分别与每个数据服务器相连,并与每个数据服务器组成一个局域网,交互服务器接入外网并通过外网与用户的终端进行交互。用户需要统计数据时可以在其对应的终端上设置数据条件,然后终端向交互服务器发送携带该数据条件的查询请求消息,以请求交互服务器统计分布式存储系统中满足该数据条件的数据。交互服务器用于接收终端发送的查询请求消息,该查询请求消息携带数据条件,向分布式存储系统中的数据服务器发送该查询请求消息;接收数据服务器返回的统计结果,对接收的各统计结果进行汇总得到最终统计结果,向终端发送该最终统计结果。数据服务器用于存储分布式存储系统中的数据文件,接收交互服务器发送的查询请求消息,从自身存储的数据文件中找出满足该数据条件的数据,对找出的数据进行统计得到统计结果,向交互服务器发送该统计结果。进一步地,交互服务器还用于获取服务器列表,该服务器列表中的数据服务器用于存储分布存储系统中的各数据文件且一个数据文件存储在一个数据服务器中;在接收到该查询请求消息时,向该服务器列表中的各数据服务器发送该查询请求消息。可选的,交互服务器将分布式存储系统中属于同一分区的各数据文件合并为一个数据文件;配置一个服务器集合,该服务器集合中包括分布式存储系统中的一个或多个数据服务器;将合并的数据文件分别存储在该服务器集合中的各数据服务器中;从该服务集合中选择一数据服务器,将选择的数据服务器的标识添加到服务器列表中。在本实施例中,各数据服务器具有统计数据的功能,各数据服务器可以并行的进行数据统计,统计时间由之前的分级缩短为秒级,大大提高了数据统计的效率;另外,各数据服务器只将统计结果返回给交互服务器,再由交互服务器返回给客户端,相比直接返回数据,大大减少网络IO的开销。数据服务器中存储的数据都是网站在与用户交互时产生的数据,网站将产生的数据存储在数据服务器的数据文件中。网站在分布式存储系统中是按分区来存储数据,一个分区中可以包括一个或多个数据文件,且一个分区可以位于同一数据服务器上或在不同的数据服务器上。例如,参见图1-2,分区1中包括数据文件HFile11、HFile12……HFile1N,网站产生数据时,如果将该数据存储在分区1,网站从分区1包括的数据文件HFile11、HFile12……HFile1N中选择一个或多个数据文件,假设选择数据文件HFile11和HFile12,将该数据存储在数据文件HFile11和HFile12中。当一个分区包括多个数据文件且该多个数据文件可能位于不同的数据服务器中,由于多个数据文件中可能存在部分数据相同,由各数据服务器直接对自身存储的数据进行统计会影响统计结果的精度,所以在请求每个数据服务器对数据进行统计之前,交互服务器还用于将分布式存储系统中属于同一分区的各数据文件合并为一个数据文件,并存储在一台数据服务器中。交互服务器合并一个数据文件后,还配置一个服务器集合,该服务器集合中包括分布式存储系统中的一个或多个数据服务器;将合并的数据文件分别存储在服务器集合中的各数据服务器中,服务器集合中的各数据服务器相互备份各自的数据;从服务器集合中选择一数据服务器,选择的数据服务器用于进行数据统计,其他未选择的数据服务器对选择的数据服务器进行备份,将选择的数据服务器的标识添加到服务器列表中。相应地,交互服务器在接收到终端发送的查询请求消息时,向服务器列表中的各数据服务器发本文档来自技高网
...
一种在分布式存储系统中统计数据的方法、装置及系统

【技术保护点】
一种在分布式存储系统中统计数据的方法,其特征在于,所述方法包括:接收查询请求消息,所述查询请求消息携带数据条件;向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。

【技术特征摘要】
1.一种在分布式存储系统中统计数据的方法,其特征在于,所述方法包括:接收查询请求消息,所述查询请求消息携带数据条件;向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。2.如权利要求1所述的方法,其特征在于,所述向分布式存储系统中的各数据服务器发送所述查询请求消息之前,还包括:获取服务器列表,所述服务器列表中的数据服务器用于存储所述分布存储系统中的各数据文件且一个数据文件存储在一个数据服务器中;所述向分布式存储系统中的各数据服务器发送所述查询请求消息,包括:向所述服务器列表中的各数据服务器发送所述查询请求消息。3.如权利要求1所述的方法,其特征在于,所述获取服务器列表,包括:将所述分布式存储系统中属于同一分区的各数据文件合并为一个数据文件;配置一个服务器集合,所述服务器集合中包括所述分布式存储系统中的一个或多个数据服务器;将所述合并的数据文件分别存储在所述服务器集合中的各数据服务器中;从所述服务集合中选择一数据服务器,将所述选择的数据服务器的标识添加到服务器列表中。4.如权利要求1至3任一项权利要求所述的方法,其特征在于,所述分布式存储系统为Hbase分布式存储系统。5.一种在分布式存储系统中统计数据的装置,其特征在于,所述装置包括:接收模块,用于接收查询请求消息,所述查询请求消息携带数据条件;发送模块,用于向分布式存储系统中的数据服务器发送所述查询请求消息,使所述数据服务器分别从自身存储的数据中找出满足所述数据条件的数据,统计所述找出的数据得到统计结果;汇总模块,用于接收所述分布式存储系统中的数据服务器返回的统计结果,对接收的统计结果进行汇总得到最终统计结果。6.如权利要求6所述的装置,其特征在于,所述装置还包括:获取模块,用于获取服务器列表,所述服务器列表中的数据服务器用于存储所述分布存储系统中的各数据文件且一个数据文件存储在一个数据服务器中;所述发送模块,用于向所...

【专利技术属性】
技术研发人员:沈健王周
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1