时序数据库中的自适应数据压缩系统、方法及设备技术方案

技术编号:34469106 阅读:15 留言:0更新日期:2022-08-10 08:42
时序数据库中的自适应数据压缩系统、方法及设备,属于计算机技术领域。为了解决目前针对时序数据库的压缩算法存在的不能对数据进行针对性选择处理及无法同时兼顾轻量化要求的问题。本发明专利技术系统包括时序数据库插件和基于配置信息通过接口调用不同的压缩算法进行压缩的数据压缩子系统;其中,时序数据库插件为分类决策模型,分类决策模型包括特征提取单元和利用神经网络模型进行压缩算法自动选择的分类决策单元;数据压缩子系统包括将选出数据压缩算法反馈给用户并将压缩策略写入配置中心的压缩策略配置单元,以及创建新活动来执行数据压缩任务,并定期被唤醒来执行数据整理压缩任务的自适应数据压缩单元。主要用于时序数据库中数据的自适应压缩。据库中数据的自适应压缩。据库中数据的自适应压缩。

【技术实现步骤摘要】
时序数据库中的自适应数据压缩系统、方法及设备


[0001]本专利技术涉及一种自适应数据压缩系统、方法及设备,属于计算机


技术介绍

[0002]当今处在一个数据规模惊人的大数据时代。近年,随着人工智能、5G、AIoT等技术的推动,全球数据量正在无限地增加。2018年全球数据总量为33ZB,在2019年约达到45ZB。按照这样的增长趋势,到2025年,全年将会有175ZB的数据产生。截止到2020年全球有500亿的设备数据上云,这些设备覆盖了很多实际场景,比如:智能生活、智能城市、智能农业,更值得大家关注的是智能制造,也即是工业物联网领域。在5G和工业4.0的大背景下,工业物联网也将会是下一个技术趋势所在。我们需要一种专精于处理时序数据的新型存储技术来解决,时序数据库在此背景下得以快速的发展。
[0003]目前对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库的存储架构B+树天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通过使用特殊的存储方式,使得时序大数据可以高效存储和快速处理海量时序大数据,是解决海量数据处理的一项重要技术。该技术采用特殊数据存储方式,极大提高了时间相关数据的处理能力,相对于关系型数据库它的存储空间减半,查询速度极大的提高。时间序列函数优越的查询性能远超过关系型数据库,Informix TimeSeries非常适合在物联网分析应用。
[0004]在解决了数据的高效存储和查询之后,自然又遇到了新的问题,这些时序数据的体量会特别巨大,而且随着时间的推移,早期产生的数据所具有的价值会越来越低。因此有必要对数据进行一定程度的压缩。以目前时序数据库开源社区最稳定的时序数据库InfluxDB 为例,其中的字符串压缩算法采用的是google开源的snappy压缩算法。该压缩算法相对于其他压缩算法,在压缩速度和解压速度上更占优势,但其数据压缩比并不是十分出色。而产生时间较早的数据由于查询频率的降低,解压缩速度便不再那么重要,而提高数据压缩比来节省存储空间的意义变得越来越大。

技术实现思路

[0005]本专利技术是为了解决目前针对时序数据库的压缩算法存在的不能对数据进行针对性选择处理及无法同时兼顾轻量化要求的问题。
[0006]时序数据库中的自适应数据压缩系统,包括:
[0007]用于确定最终决策的压缩算法类型编码以及预期将会达到的数据压缩比、数据解压缩速率的时序数据库插件,以及基于配置信息通过接口调用不同的压缩算法进行压缩的数据压缩子系统;其中,
[0008]所述时序数据库插件为分类决策模型;分类决策模型包括特征提取单元和分类决策单元;
[0009]特征提取单元:用于获取用户输入特征、工作负载特征、时序数据特征和算法表现
特征,并进行预处理得到特征向量V;
[0010]所述分类决策单元,利用神经网络模型进行分类决策,实现压缩算法的自动选择;
[0011]所述数据压缩子系统包括压缩策略配置单元、自适应数据压缩单元;
[0012]压缩策略配置单元,基于传入的用户数据,根据序数据库插件对应的分类决策模型选出数据压缩算法,并反馈给用户,同时将该压缩策略写入配置中心;
[0013]自适应数据压缩单元,创建一个新活动来执行数据压缩任务,新活动定期被唤醒来执行数据整理压缩任务。
[0014]进一步地,所述数据压缩子系统还包括用户信息接收单元,用于接收用户设置的数据压缩比和压缩速率,以及应用的压缩数据范围。
[0015]进一步地,所述自适应数据压缩单元执行数据整理压缩任务的过程包括以下步骤:
[0016]S221:compact_thread读取配置中心数据压缩策略的配置,若相应时间段内数据未进行配置,则执行默认配置策略,此时选择默认的一种数据压缩算法进行压缩;否则选择配置中心的压缩策略进行压缩;
[0017]S222:依据压缩策略配置的不同,对数据按照不同时间段进行划分,分时段到数据集合中进行读取;
[0018]S223:按照当前数据压缩格式对数据进行解压得到源数据,按照新数据压缩策略配置重新进行压缩并写回到数据集合中。
[0019]进一步地,所述用户输入特征包括:计划压缩时间段、用户预期的数据压缩比;所述工作负载特征包括:对应时段数据工作负载的执行频率;所述时序数据特征包括: Cardinality、众数;所述算法表现特征包括:数据解压缩速率。
[0020]进一步地,所述预处理过程为获取的输入数据信息,进行规范化处理,并组织成一个特征向量V。
[0021]进一步地,所述分类决策单元的神经网络模型包括第一卷积层、第二卷积层、最大池化层、Flatten层、全连接层和输出层。
[0022]优选地,所述神经网络模型的网络参数如下:
[0023]第一卷积层、第二卷积层的网络参数相同,均为:filters=16,kernel_size=3,激活函数为tanh;
[0024]最大池化层的pool_size=3;
[0025]全连接层的dropout=0.1,激活函数为relu;
[0026]输出层的dropout=0.1,激活函数为sigmiod。
[0027]时序数据库中的自适应数据压缩方法,包括以下步骤:
[0028]用户提出数据压缩比和压缩速率以及应用的压缩数据范围;
[0029]然后权利要求6所述的时序数据库中的自适应数据压缩系统获取用户信息并进行自适应数据压缩。
[0030]一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现时序数据库中的自适应数据压缩系统。
[0031]一种时序数据库中的自适应数据压缩设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现时序数据库
中的自适应数据压缩系统。
[0032]有益效果:
[0033]1.不同压缩算法的数据压缩比和解压缩速率相差十分巨大,在数据库内部内置多种压缩算法,可以应对更加多变,需求不同的场景,来对数据采用不同的压缩策略。
[0034]2.在数据库内部内置一个压缩算法决策模型,由于训练数据有限,该模型十分轻量化,因此无论在训练还是使用上都可以较快的得出结果,不会消耗过多的资源。
[0035]3.压缩算法动态配置可以帮助用户更简单的根据自身需求来对数据进行不同压缩策略的选择。在不同业务场景下均衡不同特性之间的性能,最大化资源利用率。
附图说明
[0036]图1为特征提取单元的处理流程图;
[0037]图2为分类决策单元的神经网络模型结构示意图;
[0038]图3为自适应数据压缩方法的处理过程示意图。
具体实施方式
[0039]目前的时序数据库在压缩数据方面默认仅采用一种或一类的方法,往往出于查询性能的考虑,一般对压缩算法的解压缩速度更加看重;然而随本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.时序数据库中的自适应数据压缩系统,其特征在于,包括:用于确定最终决策的压缩算法类型编码以及预期将会达到的数据压缩比、数据解压缩速率的时序数据库插件,以及基于配置信息通过接口调用不同的压缩算法进行压缩的数据压缩子系统;其中,所述时序数据库插件为分类决策模型;分类决策模型包括特征提取单元和分类决策单元;特征提取单元:用于获取用户输入特征、工作负载特征、时序数据特征和算法表现特征,并进行预处理得到特征向量V;所述分类决策单元,利用神经网络模型进行分类决策,实现压缩算法的自动选择;所述数据压缩子系统包括压缩策略配置单元、自适应数据压缩单元;压缩策略配置单元,基于传入的用户数据,根据序数据库插件对应的分类决策模型选出数据压缩算法,并反馈给用户,同时将该压缩策略写入配置中心;自适应数据压缩单元,创建一个新活动来执行数据压缩任务,新活动定期被唤醒来执行数据整理压缩任务。2.根据权利要求1所述的时序数据库中的自适应数据压缩系统,其特征在于,所述数据压缩子系统还包括用户信息接收单元,用于接收用户设置的数据压缩比和压缩速率,以及应用的压缩数据范围。3.根据权利要求1或2所述的时序数据库中的自适应数据压缩系统,其特征在于,所述自适应数据压缩单元执行数据整理压缩任务的过程包括以下步骤:S221:compact_thread读取配置中心数据压缩策略的配置,若相应时间段内数据未进行配置,则执行默认配置策略,此时选择默认的一种数据压缩算法进行压缩;否则选择配置中心的压缩策略进行压缩;S222:依据压缩策略配置的不同,对数据按照不同时间段进行划分,分时段到数据集合中进行读取;S223:按照当前数据压缩格式对数据进行解压得到源数据,按照新数据压缩策略配置重新进行压缩并写回到数据集合中。4.根据权利要求3所述的时序数据库中的自适应...

【专利技术属性】
技术研发人员:王宏志闫浩郑博梁栋叶天生燕钰丁小欧
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1