一种基于多压缩模式子分区表的存储和查询方法技术

技术编号:36427560 阅读:15 留言:0更新日期:2023-01-20 22:38
本发明专利技术提出一种基于多压缩模式子分区表的存储和查询方法,包括:步骤S1、接收一系列按照预定格式流传输的块数据;步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;步骤S3、分析数据组成的不同部分,对应的采用不同压缩模式对数据块进行压缩;步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据;步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;步骤S7、用户基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。在对应的索引存储表中进行检索。在对应的索引存储表中进行检索。

【技术实现步骤摘要】
一种基于多压缩模式子分区表的存储和查询方法


[0001]本专利技术涉及计算机数据库
,尤其是一种基于多压缩模式子分区表的存储和查询方法。

技术介绍

[0002]随着互联网大数据的发展,越来越多的海量数据需要存储,这些数据来自各种地方,数据格式千差万别,对于数据库而言,所有的数据都按照既定的存储过程进行存储,虽然存储过程较为快捷,但是检索过程非常缓慢,尤其是数据量特别大的情况下,检索读取磁盘频繁,容易导致磁盘寿命降低。另外,在工程仪器数据调试、以及实际测量中,对于测试仪器的数据存取非常频繁,每天都会产生大量的测试数据,这些数据日积月累杂乱的存储在硬盘上,数据量非常大,而且由于像日志式的记录信息不规则,无法有效的组织和管理,给日后检索查询带来不便。

技术实现思路

[0003]为了解决上述技术问题,本专利技术提出一种基于多压缩模式子分区表的存储和查询方法,能够针对不同类型的数据采用多压缩模式,设置不同的索引结构进行存储,在不同压缩模式的数据存储在不同的磁盘分区位置,在检索时能够基于数据类型特征,实现快速检索,提高检索存储效率。
[0004]本专利技术的技术方案为:一种基于多压缩模式子分区表的存储和查询方法,包括如下步骤:
[0005]步骤S1、接收一系列按照预定格式流传输的块数据;
[0006]步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
[0007]步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;
>[0008]步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
[0009]步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;
[0010]步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;
[0011]步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
[0012]进一步的,所述步骤S1、接收一系列按照预定格式流传输的块数据,所述的预定格式是指:
[0013]单纯短控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度
小于第一阈值;
[0014]单纯复杂控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度大于第一阈值;
[0015]单纯字串连接数据内容格式,包括控制字串格式和数据内容,其中控制字串格式位于数据内容的前面;
[0016]短数据内容格式,仅仅包括数据内容,且长度小于第三阈值;
[0017]长数据内容格式,仅仅包括数据内容,且长度大于第三阈值。
[0018]进一步的,所述步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;
[0019]对于单纯短控制字串格式,直接提取控制字符串;
[0020]对于单纯复杂控制字串格式,提取字符串,且计算该字符串的长度数值;以及提取出该字符串中的部分关键词;
[0021]对于单纯字串连接数据内容格式,基于控制字串格式,确定数据内容的位置和长度,基于位置和长度数据,提取数据内容;
[0022]对于短数据内容格式,直接提取数据内容;
[0023]对于长数据内容格式,直接提取数据内容,统计数据字符长度。
[0024]进一步的,所述步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;具体包括:
[0025]对于单纯短控制字串格式,直接提取控制字符串后,直接以第一格式,即原始字符存储,并在在原始字符前面增加日期、命令格式类型;
[0026]对于短数据内容格式,直接提取数据内容,直接按照第二格式,即原始数值存储;并在在原始字符前面增加日期、命令格式类型;
[0027]对于单纯复杂控制字串格式以第三格式进行存储,并在在原始字符前面增加日期、命令格式类型、关键词,字符串长度;所述的关键词是前面提取出的关键词;
[0028]对于长数据内容格式以第四格式进行压缩存储,并且在前面增加日期、命令格式类型;
[0029]对于单纯字串连接数据内容格式,前半部分保留原始数据,后半半部分基于第五格式压缩存储或者按照原数据存储,并且在前面增加日期、命令格式类型,关键词。
[0030]进一步的,所述步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分段区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;
[0031]其中,不同的压缩模式对应有不同的分区号段,第一~第五压缩模式对应第一~第五分区号段,每个分区号段依次减小,且各个分区号段之间保留预留的间隙号段;
[0032]获取每个分区号段,将该值附加到结果第一~第五格式压缩后数据的预定位置,作为分区字段。
[0033]进一步的,所述步骤S5、基于所述的分区号标志,存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;
[0034]磁盘按照号段进行分区,号段的宽度与磁盘分配的空间成比例关系,且实施统计当前号段的数据量和磁盘空间占用量,进行动态调节,每个分区对应一个压缩模式。
[0035]进一步的,所述步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的
连续空间进行存储。
[0036]进一步的,所述步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。
[0037]进一步的,在查询时,用户在输入端输入条件:日期,以及关键词、以及命令格式类型为B,在数据库中定位到该格式对应的号段分区进行查询,并且检索存储表中的日期,以及关键词对应的条目。
[0038]有益效果
[0039]本专利技术能够针对不同设备的大量不同命令格式的数据进行分析处理,针对数据特征采用不同的数据特征提取、压缩方式,并针对不同的格式数据,以格式类型区分不同数据的存储区,以数据存储区的索引作为字段添加到处理后的压缩数据中进行存储,并且针对部分带有命令信息的数据,提取关键词内容,便于快速查询,还为各数据特别加入了区段范围信息,便于快速查询,从而能够对海量、不同格式数据进行快速存储和查询。
附图说明
[0040]图1:为本专利技术的主机与多台测试设备连接进行数据测试保存示意图;
[0041]图2:本专利技术的方法流程图;
[0042]图3:为设备测试多种数据格式示意图;
[0043]图4:本专利技术针对多种数据格式对应采用不同压缩模式以及对应存储分区示意图。
具体实施方式
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多压缩模式子分区表的存储和查询方法,其特征在于,包括如下步骤:步骤S1、接收一系列按照预定格式流传输的块数据;步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;步骤S4、基于所采用的压缩模式,在第一查找表中匹配对应的分区号段,在压缩数据中单独设置的索引分区类型字段,将所述匹配到的索引分区号段作为附加数据,填入到压缩数据中,得到带有索引分区号标志的压缩数据;步骤S5、基于所述的分区号标志,将压缩数据存储到对应的子分区表中,并记录对应数据的索引和压缩模式字段;步骤S6、在数据存储过程中,对不同的子分区表,分配不同大小的连续空间进行存储;步骤S7、用户输入需要查询的数据和预先判断的数据压缩模式或数据格式类型,基于数据压缩模式或数据格式类型,在对应的索引存储表中进行检索。2.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法,其特征在于,所述步骤S1、接收一系列按照预定格式流传输的块数据,所述的预定格式是指:单纯短控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度小于第一阈值;单纯复杂控制字串格式,其中的字符都是控制字符串,不带有数据格式,字符串长度大于第一阈值;单纯字串连接数据内容格式,包括控制字串格式和数据内容,其中控制字串格式位于数据内容的前面;短数据内容格式,仅仅包括数据内容,且长度小于第三阈值;长数据内容格式,仅仅包括数据内容,且长度大于第三阈值。3.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法,其特征在于,所述步骤S2、基于预定格式进行解析,获取所述块数据中的数据组成;对于单纯短控制字串格式,直接提取控制字符串;对于单纯复杂控制字串格式,提取字符串,且计算该字符串的长度数值;以及提取出该字符串中的部分关键词;对于单纯字串连接数据内容格式,基于控制字串格式,确定数据内容的位置和长度,基于位置和长度数据,提取数据内容;对于短数据内容格式,直接提取数据内容;对于长数据内容格式,直接提取数据内容,统计数据字符长度。4.根据权利要求1所述的一种基于多压缩模式子分区表的存储和查询方法,其特征在于,所述步骤S3、分析数据组成的不同部分,按照预先设定的规则,对应的采用不同压缩模式对数据块的进行压缩;具体包括:对于单纯短控制字串格式,直接提取控制...

【专利技术属性】
技术研发人员:周勇亮贾宗秀赵冬伟李晓鹏关旭蒋旭姬涛涛刘勇生张昕尧
申请(专利权)人:天津神舟通用数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1