一种数据处理方法技术

技术编号:39491764 阅读:8 留言:0更新日期:2023-11-24 11:14
本申请公开了一种数据处理方法

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及大数据领域,尤其涉及一种数据处理方法

装置

电子设备及存储介质


技术介绍

[0002]随着数字化

网络化

智能化的高速发展,各类型数据正以几何级数增长

在相关技术中,通常会使用多种数据架构对数据进行存储

[0003]但是,数据往往会在不同的数据架构下重复存储,例如数据可能在大规模并行分析数据库存储,也可能在分布式文件系统数据库重复存储,从而导致数据冗余度较高,进而使得存储资源占用率较高


技术实现思路

[0004]有鉴于此,本申请提供了一种数据处理方法

装置

电子设备及存储介质,旨在降低存储资源占用率

[0005]第一方面,本申请提供了一种数据处理方法,所述方法包括:
[0006]获取待存储的数据表,所述待存储的数据表包括多个字段;
[0007]从历史字段存储概率表中,分别获取所述多个字段中每个字段在数据架构中的存储概率值;
[0008]基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值;
[0009]根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构

[0010]可选地,所述历史字段存储概率表,是通过如下方式生成的:
[0011]获取历史数据,所述历史数据包括多个历史字段;
[0012]计算所述多个历史字段中每个历史字段在数据架构中的历史存储概率值;
[0013]将所述历史存储概率值存入所述历史字段存储概率表中

[0014]可选地,所述数据架构包括大规模并行分析数据库和分布式文件系统数据库

[0015]可选地,所述基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值,包括:
[0016]基于所述每个字段在大规模并行分析数据库中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在大规模并行分析数据库中的存储概率值;
[0017]基于所述每个字段在分布式文件系统数据库中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在分布式文件系统数据库中的存储概率值;
[0018]可选地,所述根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构,包括:
[0019]根据所述待存储的数据表在大规模并行分析数据库中的存储概率值和所述待存
储的数据表在分布式文件系统数据库中的存储概率值,确定所述待存储的数据表存储的数据架构

[0020]第二方面,本申请提供了一种数据处理装置,所述装置包括:
[0021]获取模块,用于获取待存储的数据表,所述待存储的数据表包括多个字段;
[0022]所述获取模块,还用于从历史字段存储概率表中,分别获取所述多个字段中每个字段在数据架构中的存储概率值;
[0023]计算模块,用于基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值;
[0024]确定模块,用于根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构

[0025]可选地,所述历史字段存储概率表,是通过如下方式生成的:
[0026]获取历史数据,所述历史数据包括多个历史字段;
[0027]计算所述多个历史字段中每个历史字段在数据架构中的历史存储概率值;
[0028]将所述历史存储概率值存入所述历史字段存储概率表中

[0029]可选地,所述数据架构包括大规模并行分析数据库和分布式文件系统数据库

[0030]第三方面,本申请实施例提供了一种电子设备,所述电子设备包括:
[0031]存储器,用于存储一个或多个程序;
[0032]处理器;当所述一个或多个程序被所述处理器执行时,实现前述第一方面任一项所述的数据处理方法

[0033]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有程序,当所述程序被处理器执行时,实现前述第一方面任一项所述的数据处理方法

[0034]上述技术方案具有如下有益效果:
[0035]本申请实施例提供了一种数据处理方法

装置

电子设备及存储介质

在执行所述方法时,首先获取待存储的数据表,其中,待存储的数据表包括多个字段;接着从历史字段存储概率表中,分别获取所述多个字段中每个字段在数据架构中的存储概率值;然后基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值;最后根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构

这样一来,通过从历史字段存储概率表中,分别获取所述多个字段中每个字段在数据架构中的存储概率值,然后利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值,从而确定出待存储的数据表存储的数据架构,避免了数据在不同的数据架构中重复存储,降低了存储资源占用率

附图说明
[0036]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0037]图1为本申请实施例提供的数据处理方法的一种方法流程图;
[0038]图2为本申请实施例提供的数据处理装置的一种结构示意图

具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述

显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围

[0040]为便于理解本申请提供的技术方案,先对本申请实施例相关技术术语进行介绍:
[0041]大规模并行处理数据库
(Massively Parallel Processor

MPP)
是针对分析工作负载进行了优化的数据库:聚合和处理大型数据集
。MPP
数据库往往是列式的,因此本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:获取待存储的数据表,所述待存储的数据表包括多个字段;从历史字段存储概率表中,分别获取所述多个字段中每个字段在数据架构中的存储概率值;基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值;根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构
。2.
根据权利要求1所述的方法,其特征在于,所述历史字段存储概率表,是通过如下方式生成的:获取历史数据,所述历史数据包括多个历史字段;计算所述多个历史字段中每个历史字段在数据架构中的历史存储概率值;将所述历史存储概率值存入所述历史字段存储概率表中
。3.
根据权利要求1所述的方法,其特征在于,所述数据架构包括大规模并行分析数据库和分布式文件系统数据库
。4.
根据权利要求3所述的方法,其特征在于,所述基于所述每个字段在数据架构中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在数据架构中的存储概率值,包括:基于所述每个字段在大规模并行分析数据库中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在大规模并行分析数据库中的存储概率值;基于所述每个字段在分布式文件系统数据库中的存储概率值,利用朴素贝叶斯分类算法,计算所述待存储的数据表在分布式文件系统数据库中的存储概率值
。5.
根据权利要求4所述的方法,其特征在于,所述根据所述待存储的数据表在数据架构中的存储概率值,确定所述待存储的数据表存储的数据架构,包括:...

【专利技术属性】
技术研发人员:宋雨
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1