基于神经网络的大数据压缩方法、系统及存储介质技术方案

技术编号:33861721 阅读:22 留言:0更新日期:2022-06-18 10:51
本发明专利技术公开了一种基于神经网络的大数据压缩方法、系统及存储介质,涉及人工智能领域。主要包括:对待压缩的各数据进行算术编码,并分别获得各数据的初始权重;构建自编码网络,所述自编码网络包括输入层、输出层及至少一个隐藏层;将编码后的数据同时作为所述自编码网络的输入及输出,将各数据的初始权重作为各数据对应的神经元的初始权重,对所述自编码网络进行训练;按照权重从小到大对自编码网络进行网络剪枝,直至自编码网络的压缩率及准确率中至少一个在相应的预设阈值范围外,并将剪枝完成后的自编码网络中隐藏层对应的数据作为压缩后的数据。本发明专利技术实施例能够提高对大数据压缩的处理效率。缩的处理效率。缩的处理效率。

【技术实现步骤摘要】
基于神经网络的大数据压缩方法、系统及存储介质


[0001]本申请涉及数据压缩领域,具体涉及一种基于神经网络的大数据压缩方法、系统及存储介质。

技术介绍

[0002]大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
[0003]通常来讲,数据中存在大量的冗余信息,这一特点在大数据中部显得更为明显,数据压缩的目的在于尽可能地减少数据冗余,目前通常采用自编码网络进行数据压缩。但本专利技术实施例专利技术人在利用自编码网络对大数据进行压缩的过程中发现,所需要的训练时间较长,且需要构造的自编码网络较为复杂,进一步增大了训练耗时,使得压缩过程及解压过程所需要的时间过长。

技术实现思路

[0004]针对上述技术问题,本专利技术提供了一种基于神经网络的大数据压缩方法、系统及存储介质,能在对数据进行压缩的同时,结合数据的分布特性对神经网络模型也进行压缩,使得数据压缩比满足要求的同时减少了压缩耗时
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的大数据压缩方法,其特征在于,包括:对待压缩的各数据进行算术编码,并根据编码后的数据与编码后其他数据的相似性以及数据中包含的符号种类,分别获得各数据的初始权重;构建自编码网络,所述自编码网络包括输入层、输出层及至少一个隐藏层,所述输入层及输出层的神经元数量相同且大于所述隐藏层的神经元数;将编码后的数据同时作为所述自编码网络的输入及输出,将各数据的初始权重作为各数据对应的神经元的初始权重,对所述自编码网络进行训练获得编码网络的权重矩阵;将自编码网络中神经元对权重矩阵的熵的影响程度作为神经元的重要性值,对自编码网络进行网络剪枝,并在网络剪枝过程中按照神经元的重要性值以及权重矩阵中连接的权重值,将冗余的神经元以及连接删除,直至自编码网络的压缩率及准确率中至少一个在相应的预设阈值范围外;将网络剪枝后的自编码网络中隐藏层对应的数据作为压缩后的数据。2.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,对自编码网络进行网络剪枝,并在网络剪枝过程中按照神经元的重要性值以及权重矩阵中连接的权重值,将冗余的神经元以及连接删除,包括:删除权重矩阵中最小权重值在自编码网络中对应的连接,对删除连接后的自编码网络重新进行训练;当多个神经元的输入连接的集合包含于任一神经元的输入连接的集合中,将该多个神经元中重要性值最小的神经删除,并对删除神经元后的自编码网络重新进行训练;对训练后的自编码网络中没有输出连接或输出连接的神经元删除,重新对自编码网络进行训练。3.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,将自编码网络中神经元对权重矩阵的熵的影响程度作为神经元的重要性值,包括:将神经元存在于自编码网络中时自编码网络的权重矩阵的熵作为第一熵值,将权重矩阵中该神经元对应的值置0后获得的权重矩阵的熵作为第二熵值,并将第一熵值及第二熵值的差值的绝对值作为神经元对权重矩阵的熵的影响程度。4.根据权利要求1所述的基于神经网络的大数据压缩方法,其特征在于,根据编码后的数据与编码后其他数据的相似性以及数据中包含的符号种类,分别获得各数据的初始权重,包括:根据编码后的数据与编码后其他数据之间的相似性的均值,分别获得编码后各数据的相似度;对所有数据中包含的所有符合的种类进行统计获得所有数据的符合种类,将各...

【专利技术属性】
技术研发人员:周杨凡常小梅
申请(专利权)人:河南伴龙电子科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1