【技术实现步骤摘要】
基于flink仅一次写入carbonData的方法
本专利技术涉及一种写入方法,具体涉及一种基于flink仅一次写入carbonData的方法。
技术介绍
流式计算引擎(Flink):flink是新生代的流式大数据计算引擎,说它是真正的流式是因为他是来一条数据立马处理的,并且也支持窗口等批业务需求的场景。另外内置多种数据结构的状态来满足业务上需要状态的场景。Flink通过checkpoint的barrier对齐机制来实现内部的exactlyonce语义。反压机制也让它在流式计算中相对稳定。最早有成功的应用是在我国的阿里巴巴,那里有上万台的flink集群用于处理电商的实时推荐,搜索,大屏展示等等功能,并后续广泛在国内例如美团,腾讯,唯品会等大型公司有成功使用案例。carbonData:ApacheCarbonData是一种新型的大数据文件格式,使用先进的柱状存储、索引、压缩和编码技术,提高计算效率,在pb级数据上加快查询速度。根据apache官方的原话来看它的性能(itsupportsqueriesonasinglet ...
【技术保护点】
1.基于flink仅一次写入carbonData的方法,其特征在于:包括以下步骤:/n1)、数据采集进入kafka;/n2)、flink使用BucketingSink将从kafka消费的数据进行处理后分桶以csv格式储存;/n3)、flink的checkPoint回调函数调用脚本储存的数据刷入carbonData。/n
【技术特征摘要】
1.基于flink仅一次写入carbonData的方法,其特征在于:包括以下步骤:
1)、数据采集进入kafka;
2)、flink使用BucketingSink将从kafka消费的数据进行处理后分桶以csv格式储存;
3)、flink的checkPoint回调函数调用脚本储存的数据刷入carbonData。
2.根据权利要求1所述的基于flink仅一次写入carbonData的方法,其特征在于:
步骤2中数据储存到第三方存储系统,第三方存储系统为hdfs。
3.根据权利要求2所述的基于flink仅一次写入carbonData的方法,其特征在于:
在步骤2中结合flink的checkPoint机制,手动提交offset以保证exactlyonce。
4.根据权利要求3所述的基...
【专利技术属性】
技术研发人员:翁剑斌,范渊,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。