基于flink仅一次写入carbonData的方法技术

技术编号:23604652 阅读:50 留言:0更新日期:2020-03-28 05:45
本发明专利技术提供一种基于flink仅一次写入carbonData的方法,包括以下步骤:1)、数据采集进入kafka;2)、flink使用BucketingSink将从kafka消费的数据进行处理后分桶以csv格式储存;3)、flink的checkPoint回调函数调用脚本储存的数据刷入carbonData。本发明专利技术的flink有很好的二次提交法的下沉数据支持。最后spark是微批处理的,flink是每来一条数据都能做处理,虽然现有方案能解决很多场景了,但是flink的处理机制会让这一切变得更加灵活,我们可以根据现实中的实际场景选择任意的方法来处理数据。

A method of writing carbondata only once based on Flink

【技术实现步骤摘要】
基于flink仅一次写入carbonData的方法
本专利技术涉及一种写入方法,具体涉及一种基于flink仅一次写入carbonData的方法。
技术介绍
流式计算引擎(Flink):flink是新生代的流式大数据计算引擎,说它是真正的流式是因为他是来一条数据立马处理的,并且也支持窗口等批业务需求的场景。另外内置多种数据结构的状态来满足业务上需要状态的场景。Flink通过checkpoint的barrier对齐机制来实现内部的exactlyonce语义。反压机制也让它在流式计算中相对稳定。最早有成功的应用是在我国的阿里巴巴,那里有上万台的flink集群用于处理电商的实时推荐,搜索,大屏展示等等功能,并后续广泛在国内例如美团,腾讯,唯品会等大型公司有成功使用案例。carbonData:ApacheCarbonData是一种新型的大数据文件格式,使用先进的柱状存储、索引、压缩和编码技术,提高计算效率,在pb级数据上加快查询速度。根据apache官方的原话来看它的性能(itsupportsqueriesonasingletablewith3P本文档来自技高网...

【技术保护点】
1.基于flink仅一次写入carbonData的方法,其特征在于:包括以下步骤:/n1)、数据采集进入kafka;/n2)、flink使用BucketingSink将从kafka消费的数据进行处理后分桶以csv格式储存;/n3)、flink的checkPoint回调函数调用脚本储存的数据刷入carbonData。/n

【技术特征摘要】
1.基于flink仅一次写入carbonData的方法,其特征在于:包括以下步骤:
1)、数据采集进入kafka;
2)、flink使用BucketingSink将从kafka消费的数据进行处理后分桶以csv格式储存;
3)、flink的checkPoint回调函数调用脚本储存的数据刷入carbonData。


2.根据权利要求1所述的基于flink仅一次写入carbonData的方法,其特征在于:
步骤2中数据储存到第三方存储系统,第三方存储系统为hdfs。


3.根据权利要求2所述的基于flink仅一次写入carbonData的方法,其特征在于:
在步骤2中结合flink的checkPoint机制,手动提交offset以保证exactlyonce。


4.根据权利要求3所述的基...

【专利技术属性】
技术研发人员:翁剑斌范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1