数据管理方法、数据管理装置及存储介质制造方法及图纸

技术编号:32850357 阅读:16 留言:0更新日期:2022-03-30 19:04
本发明专利技术公开一种数据管理方法、数据管理装置及存储介质,其中数据管理方法应用于大规模并行处理数据库MPPDB,基于来自用户的查询请求得到用户对MPPDB进行查询的查询行为信息;基于所述查询行为信息,通过机器学习生成存储预测模型并根据所述存储预测模型得到MPPDB的预测存储状态;基于所述预测存储状态调整MPPDB中的存储分区。本发明专利技术实施例通过机器学习训练得到MPPDB数据的存储预测模型,根据存储预测模型预测MPPDB中数据的变化,从而预先对存储分区进行优化调整,提高MPPDB进行查询的速度,更好地满足用户的查询和分析需求,同时也减少了MPPDB存储资源投入。时也减少了MPPDB存储资源投入。时也减少了MPPDB存储资源投入。

【技术实现步骤摘要】
数据管理方法、数据管理装置及存储介质


[0001]本专利技术涉及数据库管理
,尤其涉及一种数据管理方法、数据管理装置及存储介质。

技术介绍

[0002]随着5G网络大规模商用、移动互联网的普及、数据通讯成本的急剧下降,以及各种低成本的传感技术和智能设备的出现,除了传统的手机、计算机在实时采集并产生数据之外,从手环、共享单车、出租车、智能电表到电梯、工业生产线上的设备等都在源源不断地产生实时数据。通过大规模并行处理数据库(Massively Parallel Processing Database,MPPDB)可以方便对这些海量的数据进行管理。
[0003]现有技术下数据库管理员需要定时分析MPPDB的磁盘空间状态,以维持MPPDB在有限的磁盘空间条件下正常运行,但是数据库管理员无法得知用户查询行为,无法得知哪些数据因过期可以删除,哪些数据不可以删除,哪些数据是需要增加索引来加快用户的查询效率,只能按照人为判断进行管理,因此目前MPPDB的磁盘空间管理技术还有待改进。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本专利技术实施例提供了一种数据管理方法、数据管理装置及存储介质,能够优化MPPDB的磁盘空间的占用情况。
[0006]第一方面,本专利技术实施例提供了一种数据管理方法,应用于大规模并行处理数据库MPPDB,所述数据管理方法包括:
[0007]基于来自用户的查询请求得到用户对MPPDB进行查询的查询行为信息;
[0008]基于所述查询行为信息,通过机器学习生成存储预测模型并根据所述存储预测模型得到MPPDB的预测存储状态;
[0009]基于所述预测存储状态调整MPPDB中的存储分区。
[0010]第二方面,本专利技术实施例提供了一种数据管理装置,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的数据管理方法。
[0011]第三方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行前述第一方面的数据管理方法。
[0012]本专利技术实施例提供的数据管理方法、数据管理装置及存储介质,基于用户对MPPDB的查询行为通过机器学习训练得到MPPDB数据的存储预测模型,根据存储预测模型预测MPPDB中数据的变化,从而预先对存储分区进行优化调整,提高MPPDB进行查询的速度,更好
地满足用户的查询和分析需求,同时也减少了MPPDB存储资源投入。
[0013]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0014]附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本专利技术的示例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。
[0015]图1是本专利技术第一方面一个实施例提供的数据管理方法的流程图;
[0016]图2是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0017]图3是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0018]图4是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0019]图5是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0020]图6是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0021]图7是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0022]图8是本专利技术第一方面另一个实施例提供的数据管理方法的流程图;
[0023]图9是本专利技术提供的实际例子的一个日期的存储分区示例图;
[0024]图10是本专利技术提供的实际例子的另一个日期的存储分区示例图;
[0025]图11是本专利技术实施例提供的数据管理装置的装置结构示意图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0027]本专利技术实施例提供了一种数据管理方法、数据管理装置及存储介质,利用机器学习基于用户的查询行为信息进行训练,得到存储预测模型,该存储预测模型用于根据用户的查询习惯预测大规模并行处理数据库的存储分区的变动情况,从而提前对大规模并行处理数据库的存储分区进行调整,能够加快用户在大规模并行处理数据库中的查询速度。
[0028]下面结合附图,对本专利技术实施例作进一步阐述。
[0029]本专利技术实施例第一方面提供了一种数据管理方法,应用于大规模并行处理数据库MPPDB,参照图1,本专利技术实施例的数据管理方法包括但不限于以下步骤S100、步骤S200和步骤S300。
[0030]步骤S100,基于来自用户的查询请求得到用户对MPPDB进行查询的查询行为信息。
[0031]MPPDB用于存储结构化的数据,所谓结构化的数据是指通过二维表结构来逻辑表达和实现的数据,包括由传感器、终端设备、交易系统等所产生的数据,这些数据通常具有但不限于以下特性:(1)数据是时序的,必定带有时间戳;(2)数据有保留期限;(3)数据大部分都带有地理位置信息;(4)数据极少有更新或者自动删除;(5)数据量巨大,一天采集并上报的数据量可能超过一千万条;(6)对数据的查询分析基于时间段和地理位置信息;因此在MPPDB中对这些数据通过二维表的方式进行存储,为了加快查询速度,MPPDB将二维表进行
划分,得到多个存储分区,每个存储分区可以基于时间段进行区分,又或者基于地理位置信息进行区分,当数据库接收到用户发起的查询时,MPPDB基于自身的查询方式,并行对多个存储分区发起查询,最后将对每个存储分区的查询子结果进行汇总后向用户返回本次查询的结果。用户为了提高在数据库中查询的准确程度,其查询请求中通常会包含查询所涉及的表、分区信息、索引状态、数据量、时间跨度和地理位置等一个或多个信息,基于此,本专利技术实施例步骤S100获取用户查询请求中包含的各种信息,通过解析用户查询请求中的各种信息可以得到用户对MPPDB的查询行为信息,从而为本专利技术实施例的机器学习提供特征信息进行模型训练。可以理解的是,上述的用户查询,可以是一个或多个用户发起的一个或多个查询请求,并且这些查询请求可以是一个或者多个客户端设备通过本地或者网络的方式对MPPDB发起,而该客户端可以是请求执行查询的任何设备,例如电脑终端、智能手机等。
[0032]步骤S200,基于查询行为信息,通过机器学习生成存储预测模型并根据存储预测模型得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.数据管理方法,应用于大规模并行处理数据库MPPDB,所述数据管理方法包括:基于来自用户的查询请求得到用户对MPPDB进行查询的查询行为信息;基于所述查询行为信息,通过机器学习生成存储预测模型并根据所述存储预测模型得到MPPDB的预测存储状态;基于所述预测存储状态调整MPPDB中的存储分区。2.根据权利要求1所述的数据管理方法,其特征在于,所述基于所述预测存储状态调整MPPDB中的存储分区,包括:根据预测存储状态,在MPPDB中创建第一存储分区。3.根据权利要求2所述的数据管理方法,其特征在于,所述查询行为信息包括用户的查询粒度,所述预测存储状态包括所述第一存储分区的预测数据写入量;所述基于所述预测存储状态调整MPPDB中的存储分区,还包括:根据所述预测数据写入量的大小和所述查询粒度确定所述第一存储分区的时间范围。4.根据权利要求2所述的数据管理方法,其特征在于,所述查询行为信息包括用户对不同存储分区进行查询的查询频率;所述数据管理方法还包括:基于所述查询频率,根据所述存储预测模型得到用户对所述第一存储分区的预测查询频率;当所述预测查询频率大于查询频率阈值,为所述第一存储分区创建索引。5.根据权利要求1所述的数据管理方法,其特征在于,所述查询行为信息包括用户对MPPDB中数据进行查询的查询时间范围;所述基于所述预测存储状态调整MPPDB中的存储分区,包括:删除超出所述查询时间范围的存储分区中的数据。6.根据权利要求5所述的数据管理方法,其特征在于,所述删除超出所述查询时间范围的存储分区中的数据,包括以下之一:当存储分区中数据的时间戳均超出所述查询时间范围,将所述存储分区删除;当存储分区中一部分数据的时间戳超出所述查询时间范围,将所述存储分区拆分为超期分区和未超期分区,并将所述超期分区删除,其中,所述超期分区中的数据的时间戳均超出所述查询时间范围的分区,所述非超期...

【专利技术属性】
技术研发人员:郑星权王爱军余震
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1