一种数据处理方法和装置制造方法及图纸

技术编号：35936722 阅读：27 留言：0更新日期：2022-12-14 10:24

本发明专利技术公开了一种数据处理方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：响应于数据处理请求，判断是否已开启筛选策略；响应于筛选策略已开启，使用预设算法从维表中间件中确定满足筛选策略的待加载数据，将待加载数据加载至缓存中；响应于筛选策略未开启，将维表中间件中的全部数据作为待加载数据，并将待加载数据加载至缓存中；对缓存中的待加载数据进行处理，生成数据处理请求的处理结果。该实施方式能够在上下游算子并行度不一致的情况下进行数据分发，支持哈希数据分发策略，提高维表中间件缓存命中率和缓存效率，降低占用内存，提高开源框架的可扩展性和代码复用率，可以灵活进行二次开发。可以灵活进行二次开发。可以灵活进行二次开发。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种数据处理方法和装置。

技术介绍

[0002]Flink SQL是Flink(一个开源的计算引擎)实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准SQL(结构化查询语言)语义的开发语言。目前的开源Flink框架在通过Forward数据分发策略进行数据分发时，即上下游两个算子并行度一致，并且上游的subtask数据会进入下游相同subtaskid的subtask中，并且开源Flink框架针对不同的维表中间件需要采用不同的维表实现方案。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]无法在上下游算子并行度不一致的情况下进行数据分发，且数据分发规则不定，使得维表中间件缓存命中率低，占用内存高，缓存效率低，开源框架的可扩展性低，代码复用率低，不适合进行二次开发。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种数据处理方法和装置，能够在上下游算子并行...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：响应于数据处理请求，判断是否已开启筛选策略；响应于所述筛选策略已开启，使用预设算法从维表中间件中确定满足所述筛选策略的待加载数据，将所述待加载数据加载至缓存中；响应于所述筛选策略未开启，将所述维表中间件中的全部数据作为所述待加载数据，并将所述待加载数据加载至所述缓存中；对所述缓存中的待加载数据进行处理，生成所述数据处理请求的处理结果。2.根据权利要求1所述的方法，其特征在于，所述筛选策略包括筛选字段名和筛选字段值，所述使用预设算法从维表中间件中确定满足所述筛选策略的待加载数据，将所述待加载数据加载至缓存中，包括：按照预设算法，对所述维表中间件的数据中所述筛选字段名对应的字段值进行编码，得到所述筛选字段名对应的第一字段值；基于所述第一字段值和与所述维表中间件对应的维表算子的并行度计算所述筛选字段名对应的第二字段值；根据所述筛选字段名对应的第二字段值和所述筛选字段值，从所述维表中间件的数据中确定满足所述筛选策略的待加载数据，并将所述待加载数据加载至所述缓存中。3.根据权利要求2所述的方法，其特征在于，所述按照预设算法，对所述维表中间件的数据中所述筛选字段名对应的字段值进行编码，得到所述筛选字段名对应的第一字段值，包括：通过哈希算法对所述维表中间件的数据中所述筛选字段名对应的字段值进行编码，得到所述筛选字段名对应的第一字段值。4.根据权利要求2所述的方法，其特征在于，所述基于所述第一字段值和与所述维表中间件对应的维表算子的并行度计算所述筛选字段名对应的第二字段值，包括：将所述第一字段值对所述并行度进行取余运算得到余数，将所述余数作为所述筛选字段名对应的第二字段值。5.根据权利要求2所述的方法，其特征在于，所述根据所述筛选字段名对应的第二字段值和所述筛选字段值，从所述维表中间件的数据...

【专利技术属性】
技术研发人员：何会远，韩飞，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人