一种IndexR实时数据分析库制造技术

技术编号：16153205 阅读：39 留言：0更新日期：2017-09-06 18:28

本发明专利技术公开了一种IndexR实时数据分析库；IndexR实时数据分析库实现了一种可部署于分布式环境，可并行化处理，带索引的，列式的结构化数据格式。基于这种数据格式，IndexR构建了一个数据仓库系统(Data Warehouse)，基于Hadoop生态，可以对海量数据集做快速统计分析(OLAP)，数据可实时导入并且对于查询零延迟。IndexR为解决大数据场景下分析缓慢、数据延迟、系统复杂等问题而设计。本发明专利技术的IndexR实时数据分析库把数据存放于HDFS，使用Zookeeper在集群中通讯和交涉，使用Hive方便的管理分区数据，可以通过Kafka高速实时导入数据，查询层使用优秀的分布式查询引擎Apache Drill。

全部详细技术资料下载

【技术实现步骤摘要】
一种IndexR实时数据分析库
本专利技术属于互联网
，尤其涉及一种IndexR实时数据分析库。
技术介绍
程序化广告业务需要对接全网的各大媒体，每秒产生上百万的分析数据。这些数据对广告投放活动的过程进行了精细的追踪和描述，比如创意的展示量、点击量，活动产生的注册数、回访数等。我们需要对这些数据进行实时分析处理，用于包括客户报告，投放优化，欺诈分析，收费结算等。数据使用者的查询模式是非固定的，无法预测的，并且随着业务量的激增，数据量也急剧增长。我们需要一种新的技术来解决这些需求：1、超大数据集，低查询延时：查询模式无法预测，无法预计算；表数据量普遍超过1亿，甚至上百亿千亿，过滤条件有可能会命中大量数据；数据在查询的同时还会有大量的更新，每秒入库几万的数据。要保证较低的查询延时，一般情况下查询延时要求在5s以内，常用高频查询要求1s以内。2、准实时：数据从产生到体现在分析结果延时几秒以内。时效性对于某些业务至关重要，并且越实时的数据，价值越大。3、可靠性，一致性，高可用：这些数据是公司最重要的数据之一，任何错误和不一致可能会直接体现在客户报表中，对公司的业务和品牌形象产生影响，至关重要。4、可扩展，低成本，易维护：业务会快速发展，会产生新的数据源，加入新的表，旧的数据不能删除，这带来巨大的成本压力，和运维压力。典型的更新如加列、列值更新等操作不能影响线上服务，不能带来入库或者查询延迟。5、SQL支持：全面支持SQL，要像Mysql一样好用，功能强大。不仅仅支持常见的多维分析，还需要支持复杂的分析查询，如JOIN，子查询等，支持自定义函数(UDF，UDF...

【技术保护点】
一种IndexR实时数据分析库,其特征在于，包括：系统构架、部署架构、存储结构和实时模块；所述系统构架负责文件存储格式，包括索引和数据，数据的实时导入、表定义操作，查询优化，以及数据缓存等。分布式计算框架(Drill/Spark)负责在IndexR数据上的具体查询操作，以及其他计算任务，Hadoop以及周边工具‑提供分布式文件存储，离线批量计算，离线数据管理，以及各种离线ETL任务，IndexR与Hadoop完美结合，可以作为一个高度压缩、自带索引的文件格式，兼容Hive的所有操作，Kafka‑消息队列，数据经过kafka流入IndexR，Zookeeper‑集群状态管理；所述部署架构在Hadoop系统的环境下，在现有集群上部署IndexR通常可以在半小时之内完成，只需要在所有Hadoop的DataNode(和NameNode)节点上部署一份带有IndexR插件的Drill节点，只有几项必须配置项，并且所有节点的配置都是一样的，IndexR的服务逻辑嵌入了Drillbit进程，无需额外启动服务；所述存储结构以列式存储数据，并分片存储，分片称为Segment，每一个Segment都是自解...

【技术特征摘要】
1.一种IndexR实时数据分析库,其特征在于，包括：系统构架、部署架构、存储结构和实时模块；所述系统构架负责文件存储格式，包括索引和数据，数据的实时导入、表定义操作，查询优化，以及数据缓存等。分布式计算框架(Drill/Spark)负责在IndexR数据上的具体查询操作，以及其他计算任务，Hadoop以及周边工具-提供分布式文件存储，离线批量计算，离线数据管理，以及各种离线ETL任务，IndexR与Hadoop完美结合，可以作为一个高度压缩、自带索引的文件格式，兼容Hive的所有操作，Kafka-消息队列，数据经过kafka流入IndexR，Zookeeper-集群状态管理；所述部署架构在Hadoop系统的环境下，在现有集群上部署IndexR通常可以在半小时之内完成，只需要在所有Hadoop的DataNode(和NameNode)节点上部署一份带有IndexR插件的Drill节点，只有几项必须配置项，并且所有节点的配置都是一样的，IndexR的服务逻辑嵌入了Drillbit进程，无需额外启动服务；所述存储结构以列式存储数据，并分片存储，分片称为Segment，每一个Segment都是自解释的，包括Schema，数据以及索引，Segment通常是固定不变的，这极大简化了数据管理，便于分布式处理；所述实时模块可以极高效率的导入实时数据，并且数据可以立刻被查询，可以多节点同时导入，实时导入的数据叫做RealtimeSegment，在达到一定阀值...

【专利技术属性】
技术研发人员：李华煜，韦万，
申请(专利权)人：广州舜飞信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人