一种基于Kafka和SQL的数据查询方法技术

技术编号：21547831 阅读：29 留言：0更新日期：2019-07-06 21:24

本发明专利技术公开了一种基于Kafka和SQL的数据查询方法，包括以下步骤：采用基于时间戳的定位方式对数据进行定位，分别对数据进行粗定位和细定位；采用非结构化数据协议，根据不同的数据协议分配不同的机构化构造器，通过构造器将数据扁平化，构建出表，增加内置的三个字段，结构化数据协议；以SQL形式进行数据查询。采用本发明专利技术实施例的方法使得在Kafka中查询某一条数据的时间由小时级优化至亚秒级甚至秒级。

A Data Query Method Based on Kafka and SQL

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Kafka和SQL的数据查询方法
本专利技术属于大数据
，具体涉及一种基于Kafka和SQL的数据查询方法。
技术介绍
近年来，伴随着物联网和互联网+概念的推动，数据量从GB升为TB甚至PB，由此大数据技术在国内有了突飞猛进的发展，被广泛认可的Hadoop，后来居上的Spark等层出不穷的技术框架出现在大数据领域。与此同时，Kafka作为分布式消息队列，可以对海量数据起到中间缓冲的作用，在大数据众多技术框架中占据了不可撼动的地位，每天几十亿的数据流过Kafka是很常见的场景。Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中所有的动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。在实际应用中，Kafka在debug和运维场景下，Kafka原生的支持显得很无力，查询数据只能低效率的从头开始遍历，数据量太大导致无法精准定位出具有某一条特征的数据等，都是会经常遇到的问题。探索运用高效率算法结合Kafka本身提供的技术特性来实现快速数据查询系统，并结合数据结构化查询语言SQL(结构化查询语言，StructuredQueryLa...

【技术保护点】
1.一种基于Kafka和SQL的数据查询方法，其特征在于，包括以下步骤：采用基于时间戳的定位方式对数据进行定位，分别对数据进行粗定位和细定位；采用非结构化数据协议，根据不同的数据协议分配不同的机构化构造器，通过构造器将数据扁平化，构建出表，增加内置的三个字段，结构化数据协议；以SQL形式进行数据查询。

【技术特征摘要】
1.一种基于Kafka和SQL的数据查询方法，其特征在于，包括以下步骤：采用基于时间戳的定位方式对数据进行定位，分别对数据进行粗定位和细定位；采用非结构化数据协议，根据不同的数据协议分配不同的机构化构造器，通过构造器将数据扁平化，构建出表，增加内置的三个字段，结构化数据协议；以SQL形式进行数据查询。2.如权利要求1所述的基于Kafka和SQL的数据查询方法，其特征在于，采用基于时间戳的定位方式对数据进行定位，分别对数据进行粗定位和细定位具体为：判断是否基于时间戳定位，若是，获取待查询topic当前第一条和最后一条数据的offset，通过粗定位和细定位两种方式定位到查询时间戳的offset，粗定位为通过二分法查找到与该时间戳接近的offset，细定位为基于粗定位的o...

【专利技术属性】
技术研发人员：万敏，陈小游，蔡巍伟，
申请(专利权)人：浙江新再灵科技股份有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人