System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种无损数据压缩框架制造技术_技高网

一种无损数据压缩框架制造技术

技术编号:41177813 阅读:2 留言:0更新日期:2024-05-07 22:13
本发明专利技术涉及无损数据压缩框架,所述无损数据压缩框架具体包括:输入模块,将待压缩字节流以输入长度为S输入;语义增强模块,对长度为S的字节流进行嵌入处理,得到矩阵X<subgt;e</subgt;;将X<subgt;e</subgt;分割为N个Patch,N个Patch的集合记为X<subgt;s</subgt;;进行维度融合,将X<subgt;s</subgt;各Patch的维度降为F,得到矩阵X<subgt;d</subgt;;将X<subgt;d</subgt;输入预测模型,或对X<subgt;d</subgt;进行自适应步长处理后输入预测模型;预测模型,输出正向传播预测的概率,并进行反向传播,更新框架的参数;算术编码模块,依据预测的概率进行算术编码。本发明专利技术的框架,提高了字节概率预测的准确性,进而提高了多模式数据的压缩率。

【技术实现步骤摘要】

本专利技术涉及数据压缩领域,尤其是一种无损数据压缩框架


技术介绍

1、无损数据压缩为通过编码的形式对待压缩数据进行一定比例压缩,使得被压缩后的数据具备还原为压缩前状态的能力,适合用于压缩后需要精准还原的科学数据。随着近年来我国加大对大科学装置建设的投入,针对海量科学数据的应用与流通问题,无损数据压缩具备了极大的研究价值与应用前景。

2、为提升无损数据压缩的压缩比,采取了将人工智能技术与数据压缩技术结合的方法。该方法通常将压缩任务建模为顺序建模问题,使用历史符号作为输入并估计传入符号的概率。然而,字节流是等序的、多分布的,并且没有任何先验知识,致使提高多模式数据的通用压缩器的压缩比一直是一项具有挑战性的任务。


技术实现思路

1、有鉴于此,本专利技术的主要目的在于提供一种无损数据压缩框架,通过语义增强块,从字节流的固有结构中提取语义洞察力(insights),以提高字节概率预测的准确性,进而提高多模式数据的压缩率。

2、为达到上述目的,本申请提供了一种无损数据压缩框架,包括:

3、输入模块,将待压缩字节流以输入长度为s输入;

4、语义增强模块,对长度为s的字节流进行嵌入处理,得到矩阵xe;将xe分割为n个patch,n个patch的集合记为xs;进行维度融合,将xs各patch的维度降为f,得到矩阵xd;将xd输入预测模型,或对xd进行自适应步长处理后输入预测模型;

5、预测模型,输出正向传播预测的概率,并进行反向传播,更新框架的参数;

6、算术编码模块,依据预测的概率进行算术编码;

7、其中,xe∈rs×d,d表示嵌入向量的维数;xs∈rn×d;xd∈rn×f,f是维度融合之后的维数。

8、在一个可能的实现中,所述将xe分割为n个块patch,公式表示为:

9、xs=w(xe,p,s);

10、其中,w为patch分割过程函数;p为patch的长度,每个块是一个d×p矩阵;s是步幅的长度,两个相邻块之间的重叠长度为p-s。

11、在另一个可能的实现中,所述将xs各patch的维度降为f包括:

12、执行组合操作,重新组织xs中各patch,并生成位置对齐;公式表达为:

13、xd=df(xs)

14、其中,d表示xs的维数,f为是维度融合之后的维数。

15、在另一个可能的实现中,还包括,将转换得的字节流分为大小为b的batch,一个batch内的各组xd记为χ,

16、在另一个可能的实现中,所述对xd进行自适应步长处理包括:

17、将χ与掩码矩阵m进行对位相乘,其结果作为自适应步长处理结果,记为矩阵z;

18、其中,m∈rb×n,m的所有元素初始值都设置为1,通过反向传播更新,且若m矩阵中的元素低于阈值,则将此元素设为0。这里,阈值可以设置为0.5。

19、在另一个可能的实现中,还包括采用多流并行实现无损数据压缩:

20、将h2d和d2h数据传输配置为cpu的非阻塞调用;将模型训练配置为cpu的阻塞调用;创建算术编码任务队列;

21、一个gpu进程包括:执行h2d数据传输,读取b*s个字节流;执行模型训练,以读取的b*s个字节流进行模型训练并输出预测的概率;执行d2h数据传输,输出预测的概率至算术编码任务队列;

22、cpu顺序执行算术编码任务队列中的任务;

23、其中,存在多于一个gpu进程的h2d/d2h数据传输线程,与模型训练线程在时间上重叠。

本文档来自技高网...

【技术保护点】

1.一种无损数据压缩框架,其特征在于,包括:

2.根据权利要求1所述的框架,其特征在于,所述将Xe分割为N个块Patch,公式表示为:

3.根据权利要求1所述的框架,其特征在于,所述将Xs各Patch的维度降为F包括:

4.根据权利要求1所述的框架,其特征在于,还包括,将转换得的字节流分为大小为B的批Batch,一个Batch内的各组Xd记为

5.根据权利要求4所述的框架,其特征在于,所述对Xd进行自适应步长处理包括:

6.根据权利要求4所述的框架,其特征在于,还包括采用多流并行实现无损数据压缩:

【技术特征摘要】

1.一种无损数据压缩框架,其特征在于,包括:

2.根据权利要求1所述的框架,其特征在于,所述将xe分割为n个块patch,公式表示为:

3.根据权利要求1所述的框架,其特征在于,所述将xs各patch的维度降为f包括:

4.根据权利要求1所述的框...

【专利技术属性】
技术研发人员:王子鉴万萌王珏李杨灏王彦棡王晓光曹荣强修涵文
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1