基于Flink的实时数据去重方法、装置、电子设备及介质制造方法及图纸

技术编号:43923029 阅读:28 留言:0更新日期:2025-01-03 13:27
本发明专利技术公开了基于Flink的实时数据去重方法、装置、电子设备及介质,包括:确定去重规则和控制策略,并提交Flink任务;获取消息队列中的实时数据作为输入数据流,并根据去重规则确定输入数据流的关键值,进而通过分组算子根据关键值对输入数据流进行分组,得到分组数据流;通过去重算子根据关键值对分组数据流进行数据去重,得到主数据流和侧流;输出主数据流,并根据控制策略判断是否保存侧流。本发明专利技术基于Flink实现了数据的实时去重,提高了数据去重的效率和可靠性,可广泛应用于数据处理技术领域。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其是一种基于flink的实时数据去重方法、装置、电子设备及介质。


技术介绍

1、在大数据时代,随着数字化转型的加速,各行各业产生了前所未有的海量数据,这些数据涵盖了从金融交易到医疗记录,从社交媒体互动到工业物联网传感器输出的广泛范围。然而,数据的爆发式增长也带来了前所未有的挑战,尤其是数据的冗余和重复问题。重复的数据不仅浪费了宝贵的存储空间,还增加了数据处理的时间和成本,更重要的是,它们降低了数据分析的准确性和时效性,影响了企业的决策质量和效率。

2、针对实时数据去重的需求,传统的解决方案虽然各有千秋,但它们在实际应用中均存在明显的局限性。传统的去重方式如特征工程,结合外部存储器(如redis)、布隆过滤器、基于位图(bitmap)去重、基于哈希表等,虽然可以在一定程度上能够解决数据重复的问题,但在实际应用中往往暴露出了各自显著的缺点。比如:特征工程在实现过程比较复杂,往往需要编写复杂的逻辑来处理数据中的重复项,增加了整体的复杂性和出错的可能性。此外,特征工程依赖于特定数据集,并且可能引入新的误差,且伴随着性能问题。结本文档来自技高网...

【技术保护点】

1.一种基于Flink的实时数据去重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于:所述去重规则包括若干个数据类型和对应的去重字段,所述控制策略包括控制参数和存储策略。

3.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于,所述根据所述去重规则确定所述输入数据流的关键值,其具体包括:

4.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于,所述通过分组算子根据所述关键值对所述输入数据流进行分组,得到分组数据流,其具体包括:

5.根据权利要求1所...

【技术特征摘要】

1.一种基于flink的实时数据去重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于:所述去重规则包括若干个数据类型和对应的去重字段,所述控制策略包括控制参数和存储策略。

3.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述根据所述去重规则确定所述输入数据流的关键值,其具体包括:

4.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述通过分组算子根据所述关键值对所述输入数据流进行分组,得到分组数据流,其具体包括:

5.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述通过去重算子根据所述关键值对所述分组数据流进行数据去重,得到主数据流和侧流,其具体包括:

6.根据权利要求5所述的一种基于flink的实时数据去重方法,其特征在于,所述将...

【专利技术属性】
技术研发人员:赵泰张益铭赵向军
申请(专利权)人:中电信人工智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1