一种实现大数据实时处理的方法技术

技术编号：8131131 阅读：1183 留言：0更新日期：2012-12-27 03:22

本发明专利技术公开一种大数据实时处理方法，涉及计算机应用系统领域。本发明专利技术数据的入库，查询，传输都是并发的，实时的。在分发任务的同时，进行过滤索引，过滤索引的同时，将过滤完的索引文件分发到datanode上面，同时datanode完成本地文件的查询，并向客户端返回数据。任何datanode的查询完成，即向用户返回查询结果。本发明专利技术方法处理过程都是并发执行的，最大限度的利用了计算机的硬件设备，高效B+结构和查询的并行执行，使查询达到了实时完成，极大地提高了查询的效率，用户执行查询操作时便能获得查询结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用系统领域，具体涉及ー种涉及海量数据实时处理的方法。
技术介绍
随着信息化的发展，企业要处理的数据爆炸式的增长，数据量都达到了 TB级，PB级，由此带来了一系列的问题。数据量的增多，系统的负载越来越大，数据的入库和查询性能随之下降。在不增加硬件成本的情况下，如何发挥系统的最大性能，使入库，查询速度最快，是许多企业面临的难题。云计算的出现为海量数据处理提供了有效地解决途径，在通常的云计算解决方案中，通过Hadoop (—种分布式系统基础架构)的HDFS (—种分布式文件系统)可以方便的实现海量数据存储，同时有效防止单点故障，避免不必要的损失。但是，在HDFS上进行数据检索时，常用的方法是开启全局捜索MapReduce (大規模数据并行运算)，这需要完整过滤一遍·HDFS上存储的所有数据。在云计算中，尤其是在海量数据情况下，这样做会对系统资源造成巨大的浪费，耗费大量的时间，这显然不是一个适合投入现实生产环境的方式。
技术实现思路
本专利技术的目的在于克服现有云计算解决方案中常用数据处理方法会造成系统资源浪费，数据处理时间长的缺点，提供一种有效的海量...

【技术保护点】
一种大数据实时处理方法，其特征在于数据的入库，查询，传输都是并发的，实时的：（1）实时入库：以现有的HDFS为基础，在每台datanode上启动多线程创建索引，并行创建索引文件，索引的创建以B+树的结构生成；（2）实时查询：使用分布式计算系统，在服务器端创建并提交job进行查询，查询分为三步：A.？namenode上进行索引过滤，由于索引文件名是按照时间创建的，根据查询条件中的时间和索引文件名匹配，筛选满足条件的索引文件；B.将任务分发到每台datanode上，根据筛选出的索引文件和查询条件通过B+树查询，得到满足条件的数据的位置；C.再次进行任务的分发，根据上一步得到的数据的位置在每台机器上...

【技术特征摘要】
1.ー种大数据实时处理方法，其特征在于数据的入库，查询，传输都是并发的，实时的 (1)实时入库以现有的HDFS为基础，在每台datanode上启动多线程创建索引，并行创建索引文件，索引的创建以B+树的结构生成； (2)实时查询使用分布式计算系统，在服务器端创建并提交job进行查询，查询分为~- j_hiニ少 A.namenode上进行索引过滤，由于索引文件名是按照时间创建的，根据查询条件中的时间和索引文件名匹配，筛选满足条件的索引文件； B.将任务分发到每台datanode上，根据筛选出的索引文件和查询条件通过B+树查询，得到满足...

【专利技术属性】
技术研发人员：张真，王磊，陈伟，王胤然，杨震宇，王磊，周亮亮，
申请(专利权)人：南京云创存储科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人