无需元数据的常数空间数据压缩方法、装置和计算机设备制造方法及图纸

技术编号:43314306 阅读:17 留言:0更新日期:2024-11-15 20:16
本申请涉及一种无需元数据的常数空间数据压缩方法、装置和计算机设备。该方法将高维数据表示为向量,将向量的每个元素在向量存储区的数组偏移量作为坐标索引;根据坐标索引将其对应的向量映射到桶数组;采用累积函数对每个桶的向量元素进行更新;在查询时,根据查询向量坐标采用与压缩过程相同的方式进行处理,选择相同的桶数组,将该桶数组经过聚合函数处理,得到查询结果。本方法通过原位的映射、更新、聚合,支持将任意长度的向量压缩到常数空间的存储,能够解耦数据大小和存储空间的关系;无需维护元数据,且压缩数据结构的空间占用可根据计算环境灵活设定,广泛适应于数据中心、边缘计算、智能手机、物联网等计算环境。

【技术实现步骤摘要】

本申请涉及数据压缩,特别是涉及一种无需元数据的常数空间数据压缩方法、装置和计算机设备


技术介绍

1、随着机器学习、深度学习的快速发展,机器学习系统成为智能时代的基础设施。大数据的存储和计算是机器学习系统的核心需求。目前,机器学习系统的数据通常是矩阵、张量等高阶高维数据类型,规模巨大,对存储空间和存取效率带来挑战。

2、机器学习系统的数据压缩是提升大数据的存储和计算的有效手段,通过存储压缩后的数据不仅可以降低存储压力,而且可以在需要的时候仅选择所需的数据处理,具有较高的灵活性,因此在数据中心、边缘计算、智能物联网等领域得到广泛关注。

3、但是,目前的数据压缩方法不适应机器学习系统环境,在存储空间和存取方式存在不足。目前主要是向量稀疏化、低阶分解等有损压缩方法,但是稀疏化通过丢弃达到降低空间开销的目的,丢失了大量的原始数据分布特征,并且要维护向量坐标信息。而低阶段分解需要维护元数据和压缩值。元数据和原始数据呈线性关系,而压缩值则需要分配额外的空间,因此,已有的压缩方法并不能有效缩减空间。


>技术实现思路...

【技术保护点】

1.一种无需元数据的常数空间数据压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,根据所述坐标索引采用预设方法进行处理,对得到的处理结果通过取模运算,将坐标索引对应的向量映射到桶数组,包括:

3.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,所述累积函数为:代数和或加权代数和。

4.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,所述聚合函数为:最小值、中间值、最大值或均值。

5.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,...

【技术特征摘要】

1.一种无需元数据的常数空间数据压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,根据所述坐标索引采用预设方法进行处理,对得到的处理结果通过取模运算,将坐标索引对应的向量映射到桶数组,包括:

3.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,所述累积函数为:代数和或加权代数和。

4.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,所述聚合函数为:最小值、中间值、最大值或均值。

5.根据权利要求1所述的无需元数据的常数空间数据压缩方法,其特征在于,所述累积函数为智能累积函数;所述智能累积函数通过基于transformer的编码器实现;所述编码器包括嵌入层、编码层以及压缩层;所述编码层包括多个transformer 编码器层;每个编码器层包含多头自注意力机制和前馈神经网络;

6.根据权利要求5所述的无需元数据的常数空间数据压缩方法,其特征在于,所述聚合函数为智能聚合函数;所述智能聚合函数通过解码...

【专利技术属性】
技术研发人员:符永铨司灵越赖志权李东升贾孟涵杨希苏华友高蕾乔鹏许金伟
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1