一种数据存储方法和装置制造方法及图纸

技术编号:35576288 阅读:11 留言:0更新日期:2022-11-12 16:01
本申请公开了一种数据存储方法和装置,用以在保证数据特征分布的基础上降低存储的数据量。本方案包括:确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与所述原始日志数据对应的初始类别相一致的情况下对应的采样率;基于确定出的目标采样率对所述原始日志数据进行采样;将按照所述目标采样率采样后的日志数据进行存储。本方案能通过采样得到存储体积较小的采样后日志数据。根据调整后类别与初始类别相一致的目标采样率进行采样,能有效保证采样后的日志数据保留原有的分布与特征,能达到在保证数据特征分布的基础上有效降低存储的数据量的技术效果。量的技术效果。量的技术效果。

【技术实现步骤摘要】
一种数据存储方法和装置


[0001]本申请涉及数据存储领域,尤其涉及一种数据存储方法和装置。

技术介绍

[0002]在信息化时代,数据具有较高的应用价值。例如,用户行为数据能够体现用户行为的特征,设备运行数据能够体现设备运行的特征等。通过分析这些数据,能够进一步优化工具或设备的功能。比如说,可以利用用户行为数据训练模型,训练后的模型可以对用户的行为进行预测。
[0003]为了对数据进行处理和应用,通常需要占用一定的存储空间对数据进行保存。随着数据量的增大,占用的存储空间越来越多。这不仅导致存储数据成本增加,而且对大量数据进行处理所需耗费的成本也会增加。
[0004]如何在保证数据特征分布的基础上降低存储的数据量,是本申请所要解决的技术问题。

技术实现思路

[0005]本申请实施例的目的是提供一种数据存储方法和装置,用以在保证数据特征分布的基础上降低存储的数据量。
[0006]第一方面,提供了一种数据存储方法,包括:
[0007]确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与所述原始日志数据对应的初始类别相一致的情况下对应的采样率;
[0008]基于确定出的目标采样率对所述原始日志数据进行采样;
[0009]将按照所述目标采样率采样后的日志数据进行存储。
[0010]第二方面,提供了一种数据存储装置,包括:
[0011]确定模块,确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与所述原始日志数据对应的初始类别相一致的情况下对应的采样率;
[0012]采样模块,基于确定出的目标采样率对所述原始日志数据进行采样;
[0013]存储模块,将按照所述目标采样率采样后的日志数据进行存储。
[0014]第三方面,提供了一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面的方法的步骤。
[0015]第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面的方法的步骤。
[0016]在本申请实施例中,首先确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与
所述原始日志数据对应的初始类别相一致的情况下对应的采样率;随后,基于确定出的目标采样率对所述原始日志数据进行采样;最后,将按照所述目标采样率采样后的日志数据进行存储。通过本申请实施例提供的方案,能通过对原始日志数据采样的方式得到存储体积较小的采样后的日志数据。由于聚类计算得到的初始类别能反映出原始日志数据的分布与特征,所以根据调整后类别与初始类别相一致的目标采样率进行采样,能有效保证采样后的日志数据保留了原始日志数据的分布与特征。因此,通过本申请实施例提供的方案,能够在保证数据特征分布的基础上有效降低存储的数据量。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0018]图1是本申请的一个实施例一种数据存储方法的流程示意图之一。
[0019]图2是本申请的一个实施例一种数据存储方法的流程示意图之二。
[0020]图3是本申请的一个实施例一种数据存储方法的流程示意图之三。
[0021]图4是本申请的一个实施例一种数据存储方法的流程示意图之四。
[0022]图5是本申请的一个实施例一种数据存储方法的流程示意图之五。
[0023]图6是本申请的一个实施例一种数据存储方法的流程示意图之六。
[0024]图7是本申请的一个实施例一种数据存储方法的流程示意图之七。
[0025]图8是本申请的一个实施例一种数据存储系统的结构示意图。
[0026]图9是本申请的一个实施例一种数据存储系统中的智能采样率计算模块确定采样率的逻辑示意图。
[0027]图10是本申请的一个实施例一种数据存储装置的结构示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
[0029]数据存储系统能够实现数据的存储,如分布式文件系统(Hadoop Distributed File System,hdfs)。但如果要完整保存容量较大的日志数据,则需要占用很大的存储空间。
[0030]举例而言,一家中型互联网公司的用户访问日志,每天大约有数亿条日志记录。假设每条记录的体积是1K字节。那么1亿条日志的体积就是100G字节。通常日志会保留至少1年,存储体积就达到了30多T字节。
[0031]如要对日志数据进行处理利用,往往需要对日志数据进行存储,庞大的存储体积需要占用较多的存储资源。
[0032]为了解决现有技术中存在的问题,本申请实施例提供一种数据存储方法,本方法的执行主体例如可以是分布式文件系统、与分布式文件系统通信连接的具有处理功能的模
块等。如图1所示,本申请实施例提供的方法包括以下步骤:
[0033]S11:确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与所述原始日志数据对应的初始类别相一致的情况下对应的采样率。
[0034]上述原始日志数据可以是用户日志数据、应用日志数据等。该原始日志数据可以是多维数据,比如原始日志数据是视频播放日志数据,该视频播放日志数据的维度可以是播放视频的手机型号、应用版本号、用户身份标识、视频转码类型、视频播放时长等。不同类型的日志数据的维度往往不同,本申请方案对此不作限定。该原始日志数据可以是从消息队列中采样得到的,该消息队列例如可以是kafka消息队列。
[0035]其中,日志数据对应的类别具体可以指日志数据具有的特征的类别。基于上述例子,假设原始日志数据的手机型号维度包含有A型号、B型号、C型号这三种类别,那么按照目标采样率采样后的日志数据中也包含上述A型号、B型号、C型号这三种手机型号。目标采样率使得采样后的日志数据保留原始日志数据具有的特征。
[0036]上述日志数据对应的类别可以是人为预先设定的类别,也可以是基于一定规则自动聚类得到的类别。举例而言,手机型号的类别可以按照手机品牌划分为“品牌P”、“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:确定对原始日志数据进行采样的目标采样率,所述目标采样率是指按照采样率对所述原始日志数据进行采样后的日志数据对应的调整后类别、与所述原始日志数据对应的初始类别相一致的情况下对应的采样率;基于确定出的目标采样率对所述原始日志数据进行采样;将按照所述目标采样率采样后的日志数据进行存储。2.如权利要求1所述的方法,其特征在于,所述确定对原始日志数据进行采样的目标采样率,包括:对所述原始日志数据进行聚类计算得到初始类别;按预设采样率缩小规则和预设初始采样率循环缩小采样率,并按照每次缩小后的采样率对所述原始日志数据进行采样,以及对每次采样后的日志数据进行聚类计算得到调整后类别;将调整后类别与所述初始类别相一致的情况下对应的最小采样率确定为所述目标采样率。3.如权利要求2所述的方法,其特征在于,所述按预设采样率缩小规则和预设初始采样率循环缩小采样率,并按照每次缩小后的采样率对所述原始日志数据进行采样,以及对每次采样后的日志数据进行聚类计算得到调整后类别,包括:按第一预设比例值循环缩小所述预设初始采样率,并按照每次缩小后的采样率对所述原始日志数据进行采样,以及对每次采样后的日志数据进行聚类计算得到调整后类别,并在满足预设结束条件时结束本次循环,其中,所述预设结束条件为最新一次缩小所得的调整后类别与所述初始类别不一致或最新一次缩小后的采样率小于预设结束采样率。4.如权利要求3所述的方法,其特征在于,在将调整后类别与所述初始类别相一致的情况下对应的最小采样率确定为所述目标采样率之前,还包括:将按所述第一预设比例值循环结束的情况下,最新一次循环的上一次循环使用的采样率确定为基础采样率;按第二预设比例值再次循环缩小所述基础采样率,并按照每次缩小后的采样率对所述原始日志数据进行采样...

【专利技术属性】
技术研发人员:杨忠伟
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1