一种基于flink ml自定义算法优化的实时处理方法、系统及设备技术方案

技术编号：40282156 阅读：11 留言：0更新日期：2024-02-07 20:36

一种基于flink ml自定义算法优化的实时处理方法、系统及设备，该方法包括：基于flink任务实时读取生成的流式日志数据；基于flink任务环境创建统一的自定义(Python UDF)函数；基于Python UDF函数对流式日志数据进行分词处理、特征选择和关键词提取；基于同步处理进行日志模板向量化和标准化处理，生成统一日志数据的日志模板。本发明专利技术通过在flink内自定义flink ml增量学习工具，并通过Python UDF和flink ml对流式日志数据同步进行实时的读取，缩短了数据处理的延时时长，提高了数据处理实时性；基于Python UDF优化实时处理链路流程，降低了运维成本；通过flink ml增量学习算法模型进行实时分词处理、特征选择和关键词提取；基于日志数据对日志模板的向量化和标准化配置，增强了flink ml增量学习的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于flink平台实时处理的，特别是涉及一种基于flink ml自定义算法优化的实时处理方法、系统、设备及介质。

技术介绍

1、目前传统的算法模型训练通常将算法代码部署在单机上进行算法的定时调度处理。该算法只能以离线的方式从数据库中读取一批数据，进行模型的离线训练，在离线训练完成够并将训练好的模型存储在单机上。但目前越来越多的业务场景为业务实时在线的场景，需要实时分析并给出训练结果，例如，视频实时推荐、车辆监控实时报警……，均需实时反馈实时算法模型的训练结果，并进行实时展示。然而传统的离线算法链路不支持实时更新，仅能通过t+△t的延时处理方式或者以△t小时/分钟的级别调度，延时处理时长过大；另外部署在单机上的算法和创建的任务不在同一个统一的平台，仅能进行间接调用；在间接调用时如存在复用，还需进一步修改单机上的运行脚本，导致目前传统的算法模型训练运行速度慢且运维复杂，成本较高。

技术实现思路

1、本专利技术提供一种基于flink ml自定义算法优化的实时处理方法、装置、设备及介质，以解决上述传统算法中脚本运行性能实时性差，以及定时调度造成的链路延时的问题。

2、本专利技术提供一种基于flink ml自定义算法优化的实时处理方法，该实时处理方法包括：

3、基于flink环境的每个任务实时读取生成的流式日志数据；

4、基于flink的任务环境创建统一的用户跨平台的自定义python udf函数；基于所述python udf函数对所述流式日志数

5、基于实时同步的所述特征工程处理和所述聚类计算处理的处理结果进行日志模板向量化和标准化处理，生成统一流式日志数据的日志数据模板；

6、基于所述python udf函数封装所述日志数据模板和业务分析结果为数据输出接口。

7、可选的，所述特征工程处理包括分词处理、特征选择和关键词提取，所述聚类计算处理包括调用flink ml模型进行层聚类处理。

8、可选的，所述基于flink环境的每个任务实时读取生成的流式日志数据包括：

9、基于倒排表(frame of reference)压缩算法和位图(roaring bitmap)压缩算法结合的组合压缩算法对流式日志数据进行压缩，并在压缩的过程中通过k均值聚类(k-means)算法对压缩的数据进聚类分类，标注特征聚类标签，并封装压缩的流式日志数据至所述python udf函数中；

10、基于所述python udf函数协同flink ml自定义算法模型进行流式日志数据的同步处理。

11、可选的，所述组合压缩算法包括：

12、基于倒排表(frame of reference)压缩算法对小批量的线性数据进行数据压缩；

13、基于位图(roaring bit map)压缩算法优先对大批量非线性数据进行数据压缩；

14、若位图(roaring bit map)压缩处理的数据结果为线性，则调用倒排表(frame ofreferenc)压缩算法对线性的所述数据结果进行数据压缩。

15、可选的，所述分词处理包括：

16、基于flink ml算法模型对所述流式日志数据进行分词处理，并在分词处理操作中使用特征数值计算模型(count vectorizer)统计每个分词单词的数量。

17、可选的，所述特征选择包括：

18、对每个分词单词的数量进行统计，基于词频-逆文本频率算法模型(tf-idf)对每个分词单词进行特征向量化处理，并基于每个分词单词特征向量化处理结果和统计数量选择目标向量化特征构建特征向量。

19、可选的，所述调用flink ml模型进行层聚类处理包括：

20、基于构建的特征向量调用flink ml模型进行层聚类处理；

21、基于层聚类处理结果更新各个日志类别聚类结果的聚类中心，并将更新的聚类中心数据回写至数据库管理系统或流处理平台。

22、可选的，所述关键词提取包括：

23、对每个分词单词进行评分标签操作；

24、基于评分标签和k均值聚类(k-means)算法对每个单词进行单词分类，对每一分类单词进行关键词提取，并标上对应的特征向量化聚类标签；

25、基于特征向量化聚类标签将对应的分类单词封装至所述python udf函数。

26、可选的，还包括基于所述python udf函数拼接所述流式日志数据和数据库中存储的存量数据，并训练所述拼接的算法模型；同时所述python udf基于flink cdc连接器实时读取数据库的增量数据，并基于所述增量数据进行预处理和编码，修改(python udf)函数和优化flink ml算法，更新所述flink自定义算法模型。

27、本专利技术还提供一种基于flink ml自定义算法优化的实时处理系统，该实时处理系统包括：

28、数据同步单元，基于flink环境的每个任务实时读取生成的流式日志数据；

29、分析处理单元，用于基于flink的任务环境创建统一的用户跨平台的自定义python udf函数；基于所述python udf函数对所述流式日志数据进行特征工程处理和聚类计算处理；其中，所述特征工程处理包括分词处理、特征选择和关键词提取，所述聚类计算处理包括调用flink ml模型进行层聚类处理；

30、数据模板生成单元，用于基于实时同步的所述特征工程处理和所述聚类计算处理的处理结果进行日志模板向量化和标准化处理，生成统一流式日志数据的日志数据模板；

31、api封装单元，用于基于所述python udf函数封装所述日志数据模板和业务分析结果为数据输出接口。

32、本专利技术还提供一种电子设备，该电子设备包括：

33、存储器，用于存储非暂时性计算机可读指令；以及

34、处理器，用于运行所述计算机可读指令，使得所述计算机可读指令被所述处理器执行时实现上述所述的基于flink ml自定义算法优化的实时处理方法。

35、本专利技术还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当所述计算机指令在设备上运行时，使得所述设备执行上述所述的基于flink ml自定义算法优化的实时处理方法。

36、本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本专利技术至少具有以下优点及有益效果之一：

37、一、本专利技术通过基于flink环境的每个任务实时读取生成的流式日志数据；基于flink的任务环境创建统一的用户跨平台的自定义python udf函数；基于所述python udf函数对所述流式日志数据进行特征工程处理和聚类计算处理；其中，所述特征工程处理包括分词处理、特征选择和关键词提取，所述聚类计算处理包括调用flink ml模型进行层聚类处理；基于实时同步的所述本文档来自技高网...

【技术保护点】

1.一种基于flink ml自定义算法优化的实时处理方法，其特征在于，包括：

2.根据权利要求1所述的实时处理方法，其特征在于，所述特征工程处理包括分词处理、特征选择和关键词提取，所述聚类计算处理包括调用flink ml模型进行层聚类处理。

3.根据权利要求1所述的实时处理方法，其特征在于，所述基于flink环境的每个任务实时读取生成的流式日志数据包括：

4.根据权利要求3所述的实时处理方法，其特征在于，所述组合压缩算法包括：

5.根据权利要求1所述的实时处理方法，其特征在于，所述分词处理包括：

6.根据权利要求5所述的实时处理方法，其特征在于，所述特征选择包括：

7.根据权利要求6所述的实时处理方法，其特征在于，所述调用flink ml模型进行层聚类处理包括：

8.根据权利要求1所述的实时处理方法，其特征在于，所述关键词提取包括：

9.根据权利要求1所述的实时处理方法，其特征在于，还包括基于所述Python UDF函数拼接所述流式日志数据和数据库中存储的存量数据，并训练所述拼接的算法

10.一种基于flink ml自定义算法优化的实时处理系统，其特征在于，包括：

11.一种电子设备，包括：

12.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在设备上运行时，使得所述设备执行如权利要求1至9任一项所述的基于flink ml自定义算法优化的实时处理方法。

...

【技术特征摘要】

1.一种基于flink ml自定义算法优化的实时处理方法，其特征在于，包括：

3.根据权利要求1所述的实时处理方法，其特征在于，所述基于flink环境的每个任务实时读取生成的流式日志数据包括：

4.根据权利要求3所述的实时处理方法，其特征在于，所述组合压缩算法包括：

5.根据权利要求1所述的实时处理方法，其特征在于，所述分词处理包括：

6.根据权利要求5所述的实时处理方法，其特征在于，所述特征选择包括：

7.根据权利要求6所述的实时处理方法，其特征在于，所述调用flink ml模型进行层聚类处理包括：

8.根据权利要求...

【专利技术属性】
技术研发人员：贾巧娇，陆俊，
申请(专利权)人：合众新能源汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人