流式计算的规模化处理方法和系统技术方案

技术编号：41315001 阅读：3 留言：0更新日期：2024-05-13 14:56

本申请提供了一种流式计算的规模化处理方法和系统，涉及流式计算技术领域，解决了采用独立的多个流计算任务使资源消耗线性增长及利用率较低的技术问题。该方法包括：获取采集的目标数据，并通过指定多数据源汇聚规则将所述目标数据从数据源写入至单个的消息队列分组；根据所述消息队列分组生成单个数据流，并基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果；其中，所述指定数据计算规则包含多种不同数据的计算逻辑；通过指定数据分发规则将所述数据处理结果存储至对应的存储介质，以在数据分析、在线业务、数字孪生或模拟仿真时利用所述数据处理结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及流式计算，尤其是涉及一种流式计算的规模化处理方法和系统。

技术介绍

1、目前，伴随数据驱动业务决策理念深入，数据处理的时效性要求愈发突出。对应的大数据技术、框架、商业化平台不断涌现，提供对应的流式、实时计算能力。

2、总体看，主流开源流计算框架(如，storm、spark streaming、flink、samza等)、商业化平台都提供了丰富的流式、实时计算能力，既有可定制开发的应用程序编程接口(application programming interface，api)，也有通过结构化查询语言数据库(structured query language server database，sql)来表达流式处理逻辑。其内在逻辑总体一致，即对同构数据模型、同类口径数据处理逻辑构建一个流式处理任务。在规模化(即多数据源、多口径、异构数据模型)流式处理业务场景下，此类框架和平台只能拆分成多个独立的流式处理任务进行计算。显然，流式计算消耗的计算资源会随多数据源规模化计算量线性增长。在数据流量大、资源充足时，该方式并无问题。而在计算资源有限或者数据流量较小时，问题就比较突出。资源有限时，只能降低运行任务或者调整为批计算；流量小时，资源利率用底，导致平台落地成本过高，收益低于投入。

3、因此，针对当前主流开源框架、商业化流计算平台，在数据小流量时，面对多数据源、多场景、多维度的业务场景下采用独立的多个流计算任务实现，资源利用率较低。

技术实现思路

1、本专利技术的

2、第一方面，本申请实施例提供了一种流式计算的规模化处理方法，所述方法包括：

3、获取采集的目标数据，并通过指定多数据源汇聚规则将所述目标数据从数据源写入至单个的消息队列分组；

4、根据所述消息队列分组生成单个数据流，并基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果；其中，所述指定数据计算规则包含多种不同数据的计算逻辑；

5、通过指定数据分发规则将所述数据处理结果存储至对应的存储介质，以在数据分析、在线业务、数字孪生或模拟仿真时利用所述数据处理结果。

6、在一个可能的实现中，所述根据所述消息队列分组生成单个数据流的步骤，包括：

7、基于所述消息队列分组，分区构建并生成单数据流。

8、在一个可能的实现中，所述基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果的步骤，包括：

9、动态加载所述指定数据计算规则，解析所述指定数据计算规则和所述目标数据的关联关系，并基于所述关联关系通过所述指定数据计算规则对所述目标数据进行数据拆分、数据合并和状态计算，得到数据处理结果，并将所述数据处理结果写入至所述消息队列。

10、在一个可能的实现中，所述通过指定数据分发规则将所述数据处理结果存储至对应的存储介质的步骤，包括：

11、将所述数据处理结果按照所述指定数据分发规则分发并写入至对应的存储介质。

12、在一个可能的实现中，还包括：

13、获取针对不同设备汇聚定义的第一输入内容，并基于所述第一输入内容生成所述指定多数据源汇聚规则；其中，所述不同设备的属性和指标不同，所述指定多数据源汇聚规则用于将所有设备采集数据上传至单个的消息队列分组，并针对所述不同设备的属性和指标定义对接的过滤、异常值处理、合并、窗口聚合逻辑；

14、和/或，获取针对不同设备数据计算定义的第二输入内容，并基于所述第二输入内容生成所述指定数据计算规则；

15、和/或，获取针对不同设备数据分发定义的第三输入内容，并基于所述第三输入内容生成所述指定数据分发规则。

16、在一个可能的实现中，所述存储介质包括下述任意一项或多项：

17、平台业务库、分析库、模型库。

18、在一个可能的实现中，所述指定数据分发规则用于确定所述数据处理结果的存储信息。

19、在一个可能的实现中，所述存储信息包括下述任意一项或多项：

20、数据模型、更新模式、存储介质对应关系。

21、第二方面，提供了一种流式计算的规模化处理系统，包括：

22、多数据源汇聚模块，用于获取采集的目标数据，并通过指定多数据源汇聚规则将所述目标数据从数据源写入至单个的消息队列分组；

23、规模化处理模块，用于根据所述消息队列分组生成单个数据流，并基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果；其中，所述指定数据计算规则包含多种不同数据的计算逻辑；

24、存储模块，用于通过指定数据分发规则将所述数据处理结果存储至对应的存储介质，以在数据分析、在线业务、数字孪生或模拟仿真时利用所述数据处理结果。

25、第三方面，本申请实施例又提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令和数据，所述计算机可运行指令和数据用于运行上述的第一方面所述方法。

26、本申请实施例带来了以下有益效果：

27、本申请实施例提供的一种流式计算的规模化处理方法和系统，能够获取采集的目标数据，并通过指定多数据源汇聚规则将所述目标数据从数据源写入至单个的消息队列分组；根据所述消息队列分组生成单个数据流，并基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果；其中，所述指定数据计算规则包含多种不同数据的计算逻辑；通过指定数据分发规则将所述数据处理结果存储至对应的存储介质，以在数据分析、在线业务、数字孪生或模拟仿真时利用所述数据处理结果。本方案中，通过规则定义将多个数据源产生的多个数据流合并到单个数据流内，将多个任务聚合成单个任务，基于规模化流计算引擎实现多场景、多维度计算，实现资源复用，降低成本；通过将多个任务聚合成单个任务，实现规模化流计算处理，通过定义规则将多数据源汇聚到单个数据流，实现多数据源在单流内数据处理，通过规则计算引擎实现在单个流式任务内的多场景、多维度的计算，提高资源利用率，降低硬件成本，实现在数据小流量情况下满足业务流式、实时计算要求，支持在多数据源小流量有限资源情况下，实现资源共享，提高资源利用率，解决了采用独立的多个流计算任务使资源消耗线性增长及利用率较低的技术问题。

28、为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种流式计算的规模化处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述消息队列分组生成单个数据流的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过指定数据分发规则将所述数据处理结果存储至对应的存储介质的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，所述存储介质包括下述任意一项或多项：

7.根据权利要求1所述的方法，其特征在于，所述指定数据分发规则用于确定所述数据处理结果的存储信息。

8.根据权利要求7所述的方法，其特征在于，所述存储信息包括下述任意一项或多项：

9.一种流式计算的规模化处理系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可运行指令和数据，所述计算机可运

...

【技术特征摘要】

1.一种流式计算的规模化处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述消息队列分组生成单个数据流的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述单个数据流通过指定数据计算规则处理所述目标数据，得到数据处理结果的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过指定数据分发规则将所述数据处理结果存储至对应的存储介质的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6...

【专利技术属性】
技术研发人员：吴春辉，郭永刚，苏亚晶，
申请(专利权)人：安徽数智建材研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人