【技术实现步骤摘要】
一种时序特征数据表的存储方法及装置
本专利技术涉及计算机
,特别是涉及一种时序特征数据表的存储方法及装置。
技术介绍
时序特征数据表是机器学习的重要依据之一,其存储的方法直接影响着机器学习对时序特征的使用情况。目前,时序特征数据表的存储方法包括如下两种:第一种是,时序特征数据表以行存储的方法存储。行存储的写入是一次性完成,存储消耗的时间较少,并且能够保证数据的完整性,但是在时序特征数据提取过程中,行存储通常将一行数据完全读出,如果只需要其中几列数据的情况,就会存在冗余列,读取数量大可能会影响到数据的处理效率。第二种是,时序特征数据表以列存储的方法存储。列存储在对于特定的时序特征计算,如果特征计算只依赖部分列,可以从列存储中只读取计算相关的列数据,而不会读取冗余数据,从而降低内存带宽消耗。但是,列存储由于需要把一行记录拆分成单列保存,其不适合做写入更新,且列存储不容易进行时序索引,需要对每个列的存储数据分别进行索引。综上,现有的时序特征数据表的存储方法均存在其各自的缺陷,亟需一种时序特征数据表的存储方法来 ...
【技术保护点】
1.一种时序特征数据表的存储方法,其特征在于,包括:/n将时序特征数据表所包括的行数据拆分为多个行数据段,其中,各所述行数据段包括的行数据不重合;/n针对每一个所述行数据段分别执行:将所述行数据段涉及的列划分为至少两个列分组,以行存储的形式存储每一个所述列分组所涉及的数据,其中,每一个所述列分组包括至少一列,且各所述列分组中包括的列不重合。/n
【技术特征摘要】
1.一种时序特征数据表的存储方法,其特征在于,包括:
将时序特征数据表所包括的行数据拆分为多个行数据段,其中,各所述行数据段包括的行数据不重合;
针对每一个所述行数据段分别执行:将所述行数据段涉及的列划分为至少两个列分组,以行存储的形式存储每一个所述列分组所涉及的数据,其中,每一个所述列分组包括至少一列,且各所述列分组中包括的列不重合。
2.根据权利要求1所述的方法,其特征在于,将时序特征数据表所包括的行数据拆分为多个行数据段,包括:
基于所述时序特征数据表包括的时间列的值和主键列的值,将所述时序特征数据表拆分为多个行数据段,其中,同一所述行数据段的各行数据的主键列的值相同,且各行数据的时间列的值包括在特定时间区间内;不同行数据段的各行数据的主键列的值不同或所涉及的特定时间区间不同。
3.根据权利要求1所述的方法,其特征在于,将所述行数据段涉及的列划分为至少两个列分组,包括:
选取至少两种特定时序特征计算,并确定每种所述特定时序特征计算在所述时序特征数据表中所依赖的列集合;
定义至少两个列分组集合,其中,各所述列分组集合中分别包括至少两个列分组;
基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合,确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度;
基于每种所述特定时序特征计算在不同列分组集合下的列覆盖度,从至少两个列分组集合中选取目标列分组集合;
将所述行数据段涉及的列划分为所述目标列分组集合包括的至少两个列分组。
4.根据权利要求3所述的方法,其特征在于,基于所述至少两个列分组集合以及每种所述特定时序特征计算的列集合,确定每种所述特定时序特征计算在不同列分组集合下的列覆盖度,包括:
在同一列分组集合下,针对每一种所述特定时序特征计算分别执行:确定所述列分组集合中目标列分组的总量,其中,所述目标列分组中包含有所述特定时序特征计算的列集合中的列;将所述总量确定为所述特定时序特征计算在所述列分...
【专利技术属性】
技术研发人员:包新启,王太泽,陈迪豪,陈靓,王子贤,邓龙,王豹,孔全,穆妮,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。