【技术实现步骤摘要】
本专利技术涉及数据处理,尤其是一种基于flink的实时数据去重方法、装置、电子设备及介质。
技术介绍
1、在大数据时代,随着数字化转型的加速,各行各业产生了前所未有的海量数据,这些数据涵盖了从金融交易到医疗记录,从社交媒体互动到工业物联网传感器输出的广泛范围。然而,数据的爆发式增长也带来了前所未有的挑战,尤其是数据的冗余和重复问题。重复的数据不仅浪费了宝贵的存储空间,还增加了数据处理的时间和成本,更重要的是,它们降低了数据分析的准确性和时效性,影响了企业的决策质量和效率。
2、针对实时数据去重的需求,传统的解决方案虽然各有千秋,但它们在实际应用中均存在明显的局限性。传统的去重方式如特征工程,结合外部存储器(如redis)、布隆过滤器、基于位图(bitmap)去重、基于哈希表等,虽然可以在一定程度上能够解决数据重复的问题,但在实际应用中往往暴露出了各自显著的缺点。比如:特征工程在实现过程比较复杂,往往需要编写复杂的逻辑来处理数据中的重复项,增加了整体的复杂性和出错的可能性。此外,特征工程依赖于特定数据集,并且可能引入新的误差,
...【技术保护点】
1.一种基于Flink的实时数据去重方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于:所述去重规则包括若干个数据类型和对应的去重字段,所述控制策略包括控制参数和存储策略。
3.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于,所述根据所述去重规则确定所述输入数据流的关键值,其具体包括:
4.根据权利要求1所述的一种基于Flink的实时数据去重方法,其特征在于,所述通过分组算子根据所述关键值对所述输入数据流进行分组,得到分组数据流,其具体包括:
...
【技术特征摘要】
1.一种基于flink的实时数据去重方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于:所述去重规则包括若干个数据类型和对应的去重字段,所述控制策略包括控制参数和存储策略。
3.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述根据所述去重规则确定所述输入数据流的关键值,其具体包括:
4.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述通过分组算子根据所述关键值对所述输入数据流进行分组,得到分组数据流,其具体包括:
5.根据权利要求1所述的一种基于flink的实时数据去重方法,其特征在于,所述通过去重算子根据所述关键值对所述分组数据流进行数据去重,得到主数据流和侧流,其具体包括:
6.根据权利要求5所述的一种基于flink的实时数据去重方法,其特征在于,所述将...
【专利技术属性】
技术研发人员:赵泰,张益铭,赵向军,
申请(专利权)人:中电信人工智能科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。