System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据库存储,尤其涉及一种时序数据存储引擎的索引构建方法。
技术介绍
1、随着物联网技术的发展,物联网设备的数量和应用范围急剧增加。为保证物联网设备以及互联网服务的高可用性和鲁棒性,对其实时运行状态进行更加精密而全面的监控需求则应运而生。时序数据库作为上述监控数据的存储引擎,近年来在此背景下得到了学术界和工业界的广泛关注。
2、典型的时序数据一般由两部分组成:时间线数据及时间点数据。时间点数据一般由64bit整型的时间戳,以及双精度浮点型(ieee754 double)的指标值组成。而时间线数据的表现形式则较为复杂:一般由一个监控指标字符串(metric),及一系列标签键值对字符串(tagkv pairs)组成,通常称为一条时间线(serieskey)。
3、当前的对时序数据进行存储及索引构建的方法是基于标签值、时间线标识以及标识集合,构建用于检索时间线的两索引层索引结构,保存创建标签值与标识集合之间的映射关系,及创建时间线标识和时间线之间的第二映射关系。但是这种方法并不能适应时序数据库的时间线基数膨胀,当时间线基数膨胀时,索引构建量会随之快速增加,从而影响时序数据的写入效率及索引构建效率。
技术实现思路
1、本专利技术旨在至少解决相关技术中存在的技术问题之一。为此,本专利技术提供一种时序数据存储引擎的索引构建方法。
2、本专利技术提供一种时序数据存储引擎的索引构建方法,包括:
3、s1:根据标签键的文档频率及标签值的出现
4、s2:通过标签键的历史访问频率,对所述预筛选集合进行特征提取,获得数据特征;
5、s3:对所述数据特征进行机器学习获得筛选函数,通过所述筛选函数对所述预筛选集合进行筛选,获得目标集合,所述目标集合中至少包括每条时间线的指标标签组;
6、s4:根据所述指标标签组中多个不同的指标对所述目标集合进行目标标签提取,获得多个组标签集合;
7、s5:对指标标签相同的组标签集合,置入所述指标标签对应的时间线,获得多个时间线集合;
8、s6:对每个时间线集合分配唯一的组id,建立标签键值对与组id映射的倒排索引,并建立目标标签与倒排索引映射的前置索引,以完成时序数据存储引擎的索引构建。
9、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s2中的所述数据特征包括:文档频率、标签键基数、标签键基数排名、标签键基数排名比率、标签键频率、标签键频率排名及标签键频率排名比率。
10、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s3中用于所述数据特征的机器学习方案为adaboost迭代算法。
11、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s3中,所述指标标签组中的每个指标均以指标名称为标签键,指标值为标签值。
12、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s6中的所述倒排索引中每个标签键值对有对应的倒排链,所述倒排链中包括升序的组id组。
13、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s6中的所述前置索引通过代数重建法与字典数据结构实现。
14、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s6中的所述前置索引中,所述代数重建法用于由标签键映射至对应的标签值集合构成的字典数据结构地址。
15、根据本专利技术提供的一种时序数据存储引擎的索引构建方法,步骤s6中的所述前置索引中,所述字典数据结构存有标签值与对应的倒排链偏移量的映射。
16、本专利技术提供的一种时序数据存储引擎的索引构建方法,基于启发式筛选,以及机器学习等方案筛选目标标签,以期在面对当今时序数据库时间线膨胀的问题时,可以保证索引构建量并不随之快速增加,从而保证时序数据的写入效率与索引构建效率;同时,利用所筛选的目标标签进行预测分组,并基于该分组方案建立了一套完整的索引结构体系,在不降低查询性能的同时,对数据存储及索引构建量做出优化;同时,本专利技术利用合适的索引结构,针对不同模式的查询条件、查询需求做出优化,以求在不同的数据特征、不同的查询偏好的限定下,本专利技术仍能拥有良好的表现。
17、本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
本文档来自技高网...【技术保护点】
1.一种时序数据存储引擎的索引构建方法,其特征在于,包括:
2.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S2中的所述数据特征包括:文档频率、标签键基数、标签键基数排名、标签键基数排名比率、标签键频率、标签键频率排名及标签键频率排名比率。
3.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S3中用于所述数据特征的机器学习方案为AdaBoost迭代算法。
4.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S3中,所述指标标签组中的每个指标均以指标名称为标签键,指标值为标签值。
5.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S6中的所述倒排索引中每个标签键值对有对应的倒排链,所述倒排链中包括升序的组ID组。
6.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S6中的所述前置索引通过代数重建法与字典数据结构实现。
7.根据权利要求6所述的一种时序数据存储引擎的索引构建方法,其特征
8.根据权利要求6所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤S6中的所述前置索引中,所述字典数据结构存有标签值与对应的倒排链偏移量的映射。
...【技术特征摘要】
1.一种时序数据存储引擎的索引构建方法,其特征在于,包括:
2.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤s2中的所述数据特征包括:文档频率、标签键基数、标签键基数排名、标签键基数排名比率、标签键频率、标签键频率排名及标签键频率排名比率。
3.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤s3中用于所述数据特征的机器学习方案为adaboost迭代算法。
4.根据权利要求1所述的一种时序数据存储引擎的索引构建方法,其特征在于,步骤s3中,所述指标标签组中的每个指标均以指标名称为标签键,指标值为标签值。
5.根据权利要求1所述的...
【专利技术属性】
技术研发人员:刘晓光,徐子越,王刚,黄苏童,费迪,刘欣瑀,余文清,魏子敬,刘少治,
申请(专利权)人:南开大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。