数据自清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33451662 阅读：21 留言：0更新日期：2022-05-19 00:35

本发明专利技术提供一种数据自清洗方法、装置、电子设备及存储介质，对于待处理的目标数据表和目标数据，能够获取该目标数据表的字段信息，由于字段信息能够表征该目标数据表中的第一字段及其之间的字段次序，因此在对目标数据中的每条数据执行解析操作确定其中的第二字段及其对应的字段值后，能够按照字段次序对第一字段和第二字段执行映射操作，以此确定每条数据于第一字段所对应的字段值。基于本发明专利技术，能够自动将非结构化数据的字段与数据表中的字段保持一致顺序，保证数据的准确性，即便后续数据表扩展字段，也能够通过字段信息实时确定扩展的字段，并继续与数据表中的字段保持一致，做到自适应清洗，极大减少人工核对的工作量，提升效率。提升效率。提升效率。

全部详细技术资料下载

【技术实现步骤摘要】
数据自清洗方法、装置、电子设备及存储介质

[0001]本专利技术涉及大数据ETL(Extract
‑
Transform
‑
Load，抽取
‑
转换
‑
加载)数据清洗
，更具体地说，涉及一种数据自清洗方法、装置、电子设备及存储介质。

技术介绍

[0002]对于大数据hive数仓来说，数据清洗是建立数仓的第一步，其基本的功能就是根据hive数仓中数据表(即hive表)的字段将非结构化数据转为结构化数据，为后续的分析统计提供最原始的数据。而在数据清洗中，如何自动、精确的将非结构化数据的字段加载对应到hive表的字段成为最重要的步骤。
[0003]目前，数据清洗大多使用人工指定的UDF(User Defined Function，用户自定义函数)输出字段的方式来解析非结构化数据，这就要求UDF输出字段必须要按数据表的字段顺序与数据表中的字段一一对应，字段一旦错位就会导致整张数据表的数据错误。但大型hive数仓中数据表会有上百张之多、并且每张数据表的字...

【技术保护点】

【技术特征摘要】
1.一种数据自清洗方法，其特征在于，所述方法包括：确定待处理的目标数据表和目标数据，所述目标数据为所述目标数据表对应的非结构化数据、且其中包含至少一条数据；获取所述目标数据表对应的字段信息，所述字段信息能够表征所述目标数据表中的第一字段、以及所述第一字段间的字段次序；针对所述目标数据中的每条数据，对该条数据执行解析操作，以确定该条数据中的第二字段、以及所述第二字段对应的字段值；按照所述字段次序对所述第一字段和所述第二字段执行映射操作，以确定该条数据于所述第一字段所对应的字段值。2.根据权利要求1所述的方法，其特征在于，所述获取所述目标数据表对应的字段信息，包括：获取所述目标数据表对应的元数据信息表，所述元数据信息表中至少包含有序的字段元数据信息；依次读取所述有序的字段元数据信息，以确定当前读取到的字段元数据信息所匹配的字段；将所确定的字段依次写入至已确定的有序字段列表中，所述有序字段列表用于存储字段、且其中字段的次序与所述元数据信息表中字段元数据信息的次序相同。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：输出所述有序字段列表。4.根据权利要求1所述的方法，其特征在于，所述对该条数据执行解析操作，包括：提取该条数据中的键值对，所述键值对中的键表征字段、所述键值对中的值表征字段值；建立所述键值对中字段与字段值间的对应关系。5.根据权利要求1所述的方法，其特征在于，所述按照所述字段次序对所述第一字段和所述第二字段执行映射操作，包括：按照所述字段次序在所述第二字段中确定与所述第一字段相匹配的目标字段；确定所述目标字段所对应的字段值，并将所确定的字段值依次写入至已确定的有序数据列表中，所述有序数据列表用于存储字段值、...

【专利技术属性】
技术研发人员：刘立力，顾超，
申请(专利权)人：湖南快乐阳光互动娱乐传媒有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人