流数据处理方法、流处理系统、电子设备及计算机存储介质技术方案

技术编号：34744966 阅读：21 留言：0更新日期：2022-08-31 18:38

本申请实施例提供了一种流数据处理方法、流处理系统、电子设备及计算机存储介质，应用于第一流数据的第一数据源节点的流数据处理方法包括：接收第一流数据；按照预设的时间周期拉取第二流数据；将拉取的当前第二流数据与拉取的历史第二流数据进行比较，确定当前第二流数据相对于历史第二流数据的增量数据对应的增量数据标识；根据增量数据标识对接收的第一流数据中的多条数据进行过滤，确定与增量数据标识对应的部分第一流数据，并对部分第一流数据执行反序列化操作；将执行反序列化操作的部分第一流数据通过网络传输至数据连接节点，以使得数据连接节点基于数据标识将第二流数据和部分第一流数据进行连接。据和部分第一流数据进行连接。据和部分第一流数据进行连接。

全部详细技术资料下载

【技术实现步骤摘要】
流数据处理方法、流处理系统、电子设备及计算机存储介质

[0001]本申请实施例涉及计算机
，尤其涉及一种流数据处理方法、流处理系统、电子设备及计算机存储介质。

技术介绍

[0002]数据仓库可直接从数据源处实时获取运行过程中涉及的各种流数据，并基于流式计算任务对获取的各个流数据进行合并，得到运行过程对应的多维度数据，进一步可以通过对多维度数据进行分析、汇总或者溯源等，得到用户需要的数据。
[0003]目前，一般采用双流连接(又称双流join)的方式进行流数据合并，但是双流连接耗费的处理资源较多，导致进行双流连接的成本较高，耗费的时间也较长。
[0004]基于此，现有技术亟需解决的技术问题是提供一种成本较低的流数据处理方案。

技术实现思路

[0005]有鉴于此，本申请实施例提供一种流数据处理方案，以至少部分解决上述问题。
[0006]根据本申请实施例的第一方面，提供了一种流数据处理方法，应用于第一流数据的第一数据源节点，包括：接收第一流数据；按照预设的时间周期拉取第二流数据，所述第一流数据和所述第二流数据中包括多条数据，每条数据对应有数据标识；将拉取的当前第二流数据与拉取的历史第二流数据进行比较，确定所述当前第二流数据相对于所述历史第二流数据的增量数据对应的增量数据标识；根据所述增量数据标识对接收的所述第一流数据中的多条数据进行过滤，确定与所述增量数据标识对应的部分第一流数据，并对所述部分第一流数据执行反序列化操作；将执行反序列化操作的部分第一流数据通过网络传输至数据连接节...

【技术保护点】

【技术特征摘要】
1.一种流数据处理方法，应用于第一流数据的第一数据源节点，包括：接收第一流数据；按照预设的时间周期拉取第二流数据，所述第一流数据和所述第二流数据中包括多条数据，每条数据对应有数据标识；将拉取的当前第二流数据与拉取的历史第二流数据进行比较，确定所述当前第二流数据相对于所述历史第二流数据的增量数据对应的增量数据标识；根据所述增量数据标识对接收的所述第一流数据中的多条数据进行过滤，确定与所述增量数据标识对应的部分第一流数据，并对所述部分第一流数据执行反序列化操作；将执行反序列化操作的部分第一流数据通过网络传输至数据连接节点，以使得所述数据连接节点基于所述数据标识将所述第二流数据和所述部分第一流数据进行连接。2.根据权利要求1所述的方法，其中，所述第一数据源节点中包括并行的主线程和第二异步线程，所述主线程用于执行所述反序列化操作，则所述根据所述增量数据标识对接收的所述第一流数据中的多条数据进行过滤，确定与所述增量数据标识对应的部分第一流数据，包括：若存在所述增量数据标识，则触发所述第二异步线程，根据所述增量数据标识对接收的所述第一流数据中的多条数据进行回溯操作，以确定与所述增量数据标识对应的部分第一流数据，并将所述部分第一流数据对应的各条数据存储至缓存队列中。3.根据权利要求2所述的方法，其中，所述对所述部分第一流数据执行反序列化操作，包括：通过所述主线程，读取所述缓存队列中包括的数据，并对读取出的各条数据执行所述反序列化操作；通过所述主线程，将执行过所述反序列化操作的各条数据对应的数据标识从所述增量数据标识中删除。4.根据权利要求2所述的方法，其中，所述第一数据源节点中还包括与所述主线程和所述第二异步线程并行的第一异步线程，所述按照预设的时间周期拉取第二流数据，包括：通过所述第一异步线程，按照预设的时间周期拉取所述第二流数据，并通过压缩缓存的方式存储拉取的所述第二流数据的多条数据对应的数据标识。5.根据权利要求4所述的方法，其中，所述第一异步线程的数量包括多个，多个所述第一异步线程按照预设时间周期同时拉取部分所述第二流数据，所述将拉取的当前第二流数据与拉取的历史第二流数据进行比较，确定所述当前第二流数据相对于所述历史第二流数据的增量数据对应的增量数据标识，包括：通过多个所述第一异步线程，将当前周期开始拉取所述第二流数据的拉取时间点作为时间分界点，将各自拉取的部分当前第二流数据与所述时间分界点之前拉取的历史第二流数据进行比较，确定多个所述第一异步线程各自对应的所述增量数据标识；通过多个所述第一异步线程，将各自对应的所述增量数据标识写入相同的增量存储单元中。6.根据权利要求1所述的方法，其中，所述接收第一流数据...

【专利技术属性】
技术研发人员：崔玮，袁小栋，
申请(专利权)人：阿里云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人