一种基于ETL的数据处理方法及装置制造方法及图纸

技术编号:35291505 阅读:26 留言:0更新日期:2022-10-22 12:37
本发明专利技术提供了一种基于ETL的数据处理方法,所述方法包括:从源端获取结构化数据对象,所述数据对象包含一个以上的行数据、一个以上的列数据;先对结构化数据的每一行赋予唯一编号,并形成链接表;针对结构化数据对象,以其数据属性的特征值为依据对数据进行切分,得到多个数据列,并形成维度表;当所述对象切分完成后,依据数据处理需求,基于链接表的唯一编号,和切分数据形成的维度表,将将所述数据对象的多个数据列进行组合,写入目的端。本发明专利技术通过建立链接表和维度表,将从源端获取的数据对象,进行切分和组合,提高数据匹配的准确性和数据导入的有效性。数据导入的有效性。数据导入的有效性。

【技术实现步骤摘要】
一种基于ETL的数据处理方法及装置


[0001]本专利技术涉及数据处理领域,尤其是一种基于ETL的数据处理方法,及一种基于ETL的数据处理装置。

技术介绍

[0002]ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。其中,数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中;数据的清洗转换,通常的做法是从业务系统到ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW(DataWarehousing,数据仓库)的过程中转换,进行一些业务规则的计算和聚合;数据的加载,在数据清洗后写入DW中去。
[0003]在实际操作过程中,数据的清洗转换过中,因过滤不完整数据或缺失数据的,会破坏数据完整性。因此,研究出一种能够有效保证数据完整性的ETL数据处理方法是目前需要解决的问题之一。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提出一种可提高数据匹配的准确性和数据导入的有效性的基于ETL的数据处理方法。
[0005]相应的,本申请实施例还提供了一种基于ETL的数据处理装置,及装置,用以保证上述方法的实现及应用。
[0006]基于上述目的,本专利技术提供了一种基于ETL的数据处理方法,所述方法包括以下步骤:
[0007]S1、从源端获取结构化数据对象,所述数据对象包含一个以上的行数据、一个以上的列数据;
[0008]S2、对所述数据对象的任一行数据分别赋予唯一编号,唯一编号存储于链接表;
[0009]S3、对被赋予唯一编号的数据对象,以数据属性的特征值为依据进行垂直切分,得一个以上数据列,所述列的数据存储于对应的维度表;
[0010]S4、依据数据处理需求,通过唯一编号链接相应维度表,将维度表中数据组合形成需求数据,并将其写入目的端。
[0011]进一步的,本专利技术步骤S2,对所述数据对象的任一行数据分别赋予唯一编号,唯一编号存储于链接表,其步骤包括:
[0012]步骤S21,对从源端获取的结构化数据对象,以行为依据,建立第一切分标识,对每一行数据赋予唯一编号,根据所述第一切分标识建立分隔函数;
[0013]步骤S22,所述分隔函数读取第一切分标识前的唯一编号,并建立动态组列表,将读取的编号添加至动态数组列表中,待分隔完成将动态数组列表转换为链接表。
[0014]进一步的,本专利技术所述步骤S3对被赋予唯一编号的数据对象,以数据属性的特征值为依据进行垂直切分,得一个以上数据列,所述列的数据存储于对应的维度表,其具体步骤为:
[0015]步骤S31,依据数据属性的特征建立用于存储特征数据的维度表模板;
[0016]步骤S32,链接表中的任一行数据,以其数据属性字段的特征值为依据,建立第二切分标识,确定第二切分位置;
[0017]步骤S33,根据所述第二切分位置对所述行数据进行切分,得到一个以上数据列;
[0018]步骤S34,将所述列的数据存储于对应的维度表。
[0019]进一步的,本专利技术所述步骤S34,将所述列的数据存储于对应的维度表,其子步骤为:
[0020]子步骤S341、对所述列数据添加状态标识;
[0021]子步骤S342、将列数据与维度表模板内预设数据类型进行比对,符合要求的,状态标识为True,将列数据存储于维度表;
[0022]子步骤S343,同步的,若所述列数据不符合预设数据类型求的,其状态标识为False,判断为脏数据,生成错误报告;
[0023]子步骤S344,子步骤S344,将脏数据存储于事务记录表。
[0024]进一步的,本专利技术所述步骤S4,依据数据处理需求,通过唯一编号链接相应维度表,将维度表中数据组合形成需求数据,并将其写入目的端,其具体步骤为:
[0025]步骤S41,基于被赋予唯一编号的任一行数据,调用第二切分标识创建基于事务运行的结点信息;
[0026]步骤S42,所述结点信息为第二切分标识所代表的事务运行信息所涉及的类,根据所述类创建链表,并在链表的基础上建立hash表;
[0027]步骤S43,基于数据处理需求,通过建立的hash表对维度表中的ID取模,获取所需数据;
[0028]步骤S44,将获取的数据组合,并将其写入目的端。
[0029]本专利技术的另一目的在于,一种基于ETL的数据处理装置,所述装置包括以下模块:
[0030]结构化数据对象获取模块101,用于从源端获取结构化数据对象,并对每一结构化数据对象赋予唯一编号;
[0031]数据对象切分模块102,用于对被赋予唯一编号的数据对象,以数据属性的特征值为依据进行垂直切分,得一个以上数据列,每一列的数据存储于其对应的维度表;
[0032]写入模块103,用于按照数据处理需求,在链接表中基于唯一编号链接相应维度表,将维度表中数据组合形成需求数据,并将其写入目的端。
[0033]进一步的,本专利技术所述文件结构化数据获取模块101包括以下子模块:
[0034]结构化信息读取子模块,用于从源端读取结构化信息,所述结构化信息包括一个以上数据对象;
[0035]分配编码模块,用于为每一数据对象赋予唯一编码。
[0036]进一步的,本专利技术所述数据对象切分模块102包括以下子模块:
[0037]切分位置确定子模块,用于对任一被赋予唯一编号的数据对象,基于数据的特征属性,确定切分位置;
[0038]切分子模块,用于按照切分位置对所述数据对象进行切分,得到多个数据列。
[0039]本专利技术还有一目的在于,一种计算机可读存储介质,存储有计算机程序指令,所述计算机程序指令被执行时实现如权利要求1

5任意一项所述的方法。
[0040]本专利技术的又一目的,在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1

5任意一项所述的方法。
[0041]与
技术介绍
相比,本申请实施例包括以下优点:
[0042]1.在本申请实施例中,通过对从源端获取的结构化数据对象赋予唯一编号,并将所述唯一编号存储于链接表,可通过唯一编号查询数据对象,提高数据的准确性;
[0043]2.在本申请实施例中,针对被赋予唯一编号的数据对象,以数据属性的特征值为依据对其进行切分,得一个以上数据列;所述列的数据存储于对应的维度表,通过以数据属性的特征值为依据进行切分,可保证数据切分的完整性;
[0044]3.在本申请实施例中,对所述列数据添加状态标识;将列数据与维度表模板内预设数据类型进行比对,判断列数据与预设数据类型是否匹配,状态标识为True,将列数据写入目的端;否则,判断为脏数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ETL的数据处理方法,其特征在于,所述方法包括以下步骤:S1、从源端获取结构化数据对象,所述数据对象包含一个以上的行数据、一个以上的列数据;S2、对所述数据对象的任一行数据分别赋予唯一编号,唯一编号存储于链接表;S3、对被赋予唯一编号的数据对象,以数据属性的特征值为依据进行切分,得一个以上数据列,所述列的数据存储于对应的维度表;S4、依据数据处理需求,通过唯一编号链接相应维度表,将维度表中数据组合形成需求数据,并将其写入目的端。2.根据权利要求1所述的一种基于ETL的数据处理方法,其特征在于,步骤S2,对所述数据对象的任一行数据分别赋予唯一编号,唯一编号存储于链接表,其步骤包括:步骤S21,对从源端获取的结构化数据对象,以行为依据,建立第一切分标识,对每一行数据赋予唯一编号,根据所述第一切分标识建立分隔函数;步骤S22,所述分隔函数读取第一切分标识前的唯一编号,并建立动态组列表,将读取的编号添加至动态数组列表中,待分隔完成将动态数组列表转换为链接表。3.根据权利要求1所述的一种基于ETL是的数据处理方法,其特征在于,所述步骤S3,对被赋予唯一编号的数据对象,以数据属性的特征值为依据进行垂直切分,得一个以上数据列,所述列的数据存储于对应的维度表,其具体步骤为:步骤S31,依据数据属性的特征建立用于存储特征数据的维度表模板;步骤S32,链接表中的任一行数据,以其数据属性字段的特征值为依据,建立第二切分标识,确定第二切分位置;步骤S33,根据所述第二切分位置对所述行数据进行切分,得到一个以上数据列;步骤S34,将列的数据存储于对应的维度表。4.根据权利要求3所述的一种基于ETL的数据处理方法,起特征在于,所述步骤S34,将所述列的数据存储于对应的维度表,其子步骤为:子步骤S341、对所述列数据添加状态标识;子步骤S342、将列数据与维度表模板内预设数据类型进行比对,符合要求的,状态标识为True,将列数据存储于维度表;子步骤S343,同步的,若所述列数据不符合预设数据类型求的,其状态标识为False,判断为脏数据,生成错误报告;子步骤S344,将脏数据存储于事务记录表。5.根据权利要求1或3...

【专利技术属性】
技术研发人员:许陈圣刘晨光
申请(专利权)人:苏州伽顿全盛信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1