一种基于大语言模型的大数据ETL处理方法及系统技术方案

技术编号：41204440 阅读：2 留言：0更新日期：2024-05-07 22:30

本发明专利技术公开了一种基于大语言模型的大数据ETL处理方法及系统，方法包括：从源系统或数据仓库中提取待处理的大数据，大数据包括结构化数据和非结构化数据；对大数据进行数据预处理，得到预处理后的数据；根据任务的需求和目标，对预处理后的数据进行特征工程处理，提取各业务相关的特征信息，选择有效的特征信息，将有效的特征信息输入大语言模型；大语言模型对有效的特征信息进行处理，输出结果数据；将结果数据进行数据转换，得到最终的处理结果；将处理结果加载入库。该方法能处理复杂文本数据，无需手动特征工程，能更好进行语义分析和上下文理解，从而更好地支持数据处理和分析任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，具体涉及一种基于大语言模型的大数据etl处理方法及系统。

技术介绍

1、etl，extract-transform-load的缩写，是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。etl是数据集成的第一步，也是构建数据仓库最重要的步骤，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。etl一词较常用在数据仓库，但其对象并不限于数据仓库。在大数据etl中，可能需要对数据进行规整和聚合操作，例如：根据某些维度进行分组、计算统计指标等。大语言模型可以帮助编写复杂的规整和聚合逻辑，以满足特定的数据处理需求。但是，大语言模型在处理大数据etl任务时可能会面临一些挑战，例如：处理大规模数据时的性能问题、资源需求等。在实际应用中，可能需要对任务进行分批处理、调整模型参数、优化代码等，以确保任务能够高效地运行。

技术实现思路

1、针对现有技术中的缺陷，本专利技术实施例提供的一种基于大语言模型的大数据etl处理方法及系统，能处理复杂文本数据，无需手动特征工程，能更好进行语义分析和上下文理解，从而更好地支持数据处理和分析任务。

2、第一方面，本专利技术实施例提供的一种基于大语言模型的大数据etl处理方法，包括：

3、从源系统或数据仓库中提取待处理的大数据，所述大数据包括结构化数据和非结构化数据；

4、对所述大数据进行数据预处理，得到预处理后的数据；

5、根据任务的需求和目标，对预处

6、大语言模型对有效的特征信息进行处理，输出结果数据；

7、将结果数据进行数据转换，得到最终的处理结果；

8、将处理结果加载入库。

9、进一步地，还包括：对数据转换过程进行实时监控得到监控结果，并根据监控结果对性能瓶颈进行优化和调整。

10、进一步地，对所述大数据进行数据预处理的具体方法包括：

11、对大数据进行数据清洗，得到清洗后的数据；

12、对清洗后的数据进行格式转换得到格式转换后的数据；

13、对格式转换后的数据进行缺失值处理得到缺失值处理后的数据；

14、对缺失值处理后的数据进行文本标准化处理。

15、进一步地，对预处理后的数据进行特征工程处理的具体方法包括：

16、对预处理后的数据进行特征提取，提取与业务相关的特征信息；

17、从提取的特征信息中选择有效的特征信息。

18、进一步地，所述将结果数据进行数据转换的具体方法包括：

19、根据需求对结果数据进行进一步转换得到转换后的数据；

20、将转换后的数据进行归一化处理得到归一化处理后的数据；

21、对归一化处理后的数据进行聚合粒度处理。

22、第二方面，本专利技术实施例提供的一种基于大语言模型的大数据etl处理系统，包括：数据获取模块、数据预处理模块、特征工程模块、大语言模型处理模块、数据转换模块和加载入库模块，

23、所述数据获取模块用于从源系统或数据仓库中提取待处理的大数据，所述大数据包括结构化数据和非结构化数据；

24、所述数据预处理模块用于对所述大数据进行数据预处理，得到预处理后的数据；

25、所述特征工程模块用于根据任务的需求和目标，对预处理后的数据进行特征工程处理，提取各业务相关的特征属性，得到有效的特征信息，将有效的特征信息输入大语言模型；

26、所述大语言模型处理模块采用大语言模型对有效的特征信息进行处理，输出结果数据；

27、所述数据转换模块用于将结果数据进行数据转换，得到最终的处理结果；

28、所述加载入库模块用于将处理结果加载入库。

29、进一步地，系统还包括监控模块，所述监控模块用于对数据转换过程进行实时监控得到监控结果，并根据监控结果对性能瓶颈进行优化和调整。

30、进一步地，数据预处理模块包括清洗单元、格式转换单元、缺失值处理单元和文本标准化处理单元，

31、所述清洗单元用于对大数据进行数据清洗，得到清洗后的数据；

32、所述格式转换单元用于对清洗后的数据进行格式转换得到格式转换后的数据；

33、所述缺失值处理单元用于对格式转换后的数据进行缺失值处理得到缺失值处理后的数据；

34、所述文本标准化处理单元用于对缺失值处理后的数据进行文本标准化处理。

35、进一步地，特征工程模块包括特征提取单元和特征选择单元，

36、所述特征提取单元用于对预处理后的数据进行特征提取，提取与业务相关的特征信息；

37、所述特征选择单元用于从提取的特征信息中选择有效的特征信息。

38、进一步地，数据转换模块包括数据格式转换单元、数据归一化单元和数据聚合单元，

39、所述数据格式转换单元用于根据需求对结果数据进行进一步转换，得到在转换后的数据；

40、所述数据归一化单元用于将转换后的数据进行归一化处理得到归一化处理后的数据；

41、所述数据聚合单元用于对归一化处理后的数据进行聚合粒度处理。

42、本专利技术的有益效果：

43、本专利技术实施例提供的一种基于大语言模型的大数据etl处理方法及系统具有以下优点：

44、1.能处理复杂文本数据，与传统的etl方案相比，可以更好地处理非结构化的文本数据。

45、2.可以通过端到端的学习方式，自动从原始文本中提取有用的特征，无需手动特征工程，减少了手动特征工程的工作量。

46、3.能够更好地捕捉文本数据中的复杂关系和含义，能更好地进行语义分析和上下文理解，从而更好地支持数据处理和分析任务。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的大数据ETL处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：对数据转换过程进行实时监控得到监控结果，并根据监控结果对性能瓶颈进行优化和调整。

3.如权利要求1所述的方法，其特征在于，对所述大数据进行数据预处理的具体方法包括：

4.如权利要求1所述的方法，其特征在于，所述对预处理后的数据进行特征工程处理的具体方法包括：

5.如权利要求1所述的方法，其特征在于，所述将结果数据进行数据转换的具体方法包括：

6.一种基于大语言模型的大数据ETL处理系统，其特征在于，包括：数据获取模块、数据预处理模块、特征工程模块、大语言模型处理模块、数据转换模块和加载入库模块，

7.如权利要求6所述的系统，其特征在于，所述系统还包括监控模块，所述监控模块用于对数据转换过程进行实时监控得到监控结果，并根据监控结果对性能瓶颈进行优化和调整。

8.如权利要求6所述的系统，其特征在于，所述数据预处理模块包括清洗单元、格式转换单元、缺失值处理单元和文本标准化处理单元，

<...

【技术特征摘要】

1.一种基于大语言模型的大数据etl处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：对数据转换过程进行实时监控得到监控结果，并根据监控结果对性能瓶颈进行优化和调整。

3.如权利要求1所述的方法，其特征在于，对所述大数据进行数据预处理的具体方法包括：

4.如权利要求1所述的方法，其特征在于，所述对预处理后的数据进行特征工程处理的具体方法包括：

5.如权利要求1所述的方法，其特征在于，所述将结果数据进行数据转换的具体方法包括：

6.一种基于大语言模型的大数据etl处理系统，其特征在于，包括：数据获取模块、数据预处理...

【专利技术属性】
技术研发人员：刘昌彬，周南，
申请(专利权)人：深圳市和讯华谷信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人