数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37436063 阅读：17 留言：0更新日期：2023-05-06 09:08

本申请提出了一种数据处理方法、装置及电子设备，涉及数据处理技术领域，方法包括：获取多个文件名集；获取多个数据集；针对任一文件名集，根据该任一文件名集中各文件名，从多个数据集中确定与该任一文件名集相似的目标数据集；针对目标数据集中的任一数据字段，在该任一文件名集中存在文件名与该任一数据字段匹配的情况下，根据目标数据集所在的数据表的表名、该任一数据字段和文件名，生成关联血缘信息。由此，可以实现对数据湖中聚类后的非结构化的文件的文件名和结构化的数据表中同一列或同一行中的数据字段进行相似性计算的方式，获取关联血缘信息，从而可以有效建立结构化的数据表和非结构化的文件之间的映射关联信息。信息。信息。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]数据湖，是一个以原始格式存储数据的存储库或系统，其按原样存储数据，而无需事先对数据进行结构化处理。在数据湖业务中，存在将结构化数据(如数据表)和非结构化数据(如文件)进行关联的情况，例如，在数据表中记录个人信息，需要将数据表中的个人信息与非结构化数据(如个人的身份证照片、车辆照片、其他文本文件等)关联，需要将非结构化数据存储到对象存储中。
[0003]如何建立结构化数据(如数据表)和非结构化数据(如文件)之间的关联血缘信息(即映射关联信息)，是非常重要的。

技术实现思路

[0004]本申请的目的旨在至少在一定程度上解决上述技术问题之一。
[0005]为此，本申请提出了一种数据处理方法、装置、电子设备及存储介质，以实现对数据湖中聚类后的非结构化的文件的文件名和结构化的数据表中同一列或同一行中的数据字段进行相似性计算的方式，获取关联血缘信息，从...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取多个第一文件名集，其中，所述第一文件名集中包括同一聚簇中各文件的文件名，所述聚簇是对数据湖中的至少一个存储桶中的各文件进行聚类得到的；获取多个第一数据集，其中，所述第一数据集中包括所述数据湖中同一数据表中的同一列或同一行中的各数据字段；针对任一第一文件名集，根据所述任一第一文件名集中各文件名，从所述多个第一数据集中确定与所述任一第一文件名集相似的目标数据集；针对所述目标数据集中的任一第一数据字段，在所述任一第一文件名集中存在第一文件名与所述任一第一数据字段匹配的情况下，根据所述目标数据集所在的数据表的表名、所述任一第一数据字段和所述第一文件名，生成第一关联血缘信息。2.根据权利要求1所述的方法，其特征在于，所述针对任一第一文件名集，根据所述任一第一文件名集中各文件名，从所述多个第一数据集中确定与所述任一第一文件名集相似的目标数据集，包括：针对任一第一文件名集，根据所述任一第一文件名集中各文件名，确定所述任一第一文件名集与各所述第一数据集之间的第一相似度；根据各所述第一数据集的第一相似度，从各所述第一数据集中确定候选数据集，其中，所述候选数据集的第一相似度高于设定的相似度阈值；从各所述候选数据集中确定所述目标数据集。3.根据权利要求2所述的方法，其特征在于，所述从各所述候选数据集中确定所述目标数据集，包括：针对任一候选数据集，确定所述任一第一文件名集中各文件名在所述任一候选数据集中的命中数量；根据各所述候选数据集的命中数量，从各所述候选数据集中确定所述目标数据集；或者，将所述第一相似度最大的候选数据集，作为所述目标数据集。4.根据权利要求2所述的方法，其特征在于，所述针对任一第一文件名集，根据所述任一第一文件名集中各文件名，确定所述任一第一文件名集与各所述第一数据集之间的第一相似度，包括：针对任一第一文件名集，对所述任一第一文件名集中各文件名进行特征提取，以得到所述任一第一文件名集的第一文本特征；对各所述第一数据集中的各数据字段进行特征提取，以得到各所述第一数据集的第二文本特征；根据所述第一文本特征与各所述第二文本特征之间的第二相似度，确定所述任一第一文件名集与各所述第一数据集之间的第一相似度。5.根据权利要求4所述的方法，其特征在于，所述对各所述第一数据集中的各数据字段进行特征提取，以得到各所述第一数据集的第二文本特征，包括：针对任一第一数据集，对所述任一第一数据集中的各数据字段进行采样，以得到采样后的所述任一第一数据集，其中，所述采样后的任一第一数据集中包含设定数量的数据字段；
对所述采样后的任一第一数据集中所包含的各数据字段进行特征提取，以得到所述任一第一数据集的第二文本特征。6.根据权利要求1所述的方法，其特征在于，所述获取多个第一数据集，包括：获取多个初始数据集，其中，每个所述初始数据集中包括所述数据湖中同一数据表中同一列或同一行中的所有数据字段；针对任一初始数据集，根据所述任一初始数据集中各数据字段的重复率，确定所述任一初始数据集的保留分值，其中，所述保留分值与所述重复率呈负相关关系；根据各所述初始数据集的保留分值，从各所述初始数据集中确定各所述第一数据集。7.根据权利要求1所述的方法，其特征在于，所述获取多个第一文件名集，包括：针对所述数据湖中的任一存储桶，获取所述任一存储桶中各文件的文件信息；根据所述任一存储桶中各文件的文件信息，对所述任一存储桶中的各文件进行聚类，得到至少一个...

【专利技术属性】
技术研发人员：林鹏程，
申请(专利权)人：杭州数梦工场科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人