一种设计仿真软件数据自适应压缩方法技术

技术编号:37977389 阅读:13 留言:0更新日期:2023-06-30 09:52
本发明专利技术数据压缩技术领域,具体涉及一种设计仿真软件数据自适应压缩方法,包括:初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码;对仿真软件的被压缩文件进行扫描,读取出部分数据;判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;将压缩后的数据存储到文件缓存中,重复上述步骤直至所有数据都被压缩。解决了只是用一种或几种压缩方法对系统软件压缩的现状,使软件系统每部分数据都可以自动匹配最合适的压缩算法,提高了压缩率。提高了压缩率。提高了压缩率。

【技术实现步骤摘要】
一种设计仿真软件数据自适应压缩方法


[0001]本专利技术涉及数据压缩
,具体涉及一种设计仿真软件数据自适应压缩方法及系统。

技术介绍

[0002]数据压缩主要是指在信息存储的过程中,去掉占用额外比特位编码的冗余数据,使用比原始数据更少的数据位来编码信息的过程,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。被压缩的对象包括:物理空间即数据存储介质的尺寸,时间区间即传输消息集合所需的时间,电磁频谱区域即传输消息的带宽。分为可逆压缩和不可逆压缩,可逆压缩如ZIP、RAR、ARJ、CAB等文件,可以精确地恢复原来的数据;不可逆的压缩如JPEG、MPEG系列等对图片、声音、视频等进行压缩,不可精确的恢复原始信号。常见的压缩算法有哈夫曼编码、字典编码、LZ77、LZW算法等。传统的数据压缩软件数据压缩通常是开发人员在程序中预设几个压缩算法,指定每个模块在压缩的时候的算法,这种压缩方式灵活性差,压缩效率低,无法根据数据流自动的选择合适的技术。
[0003]基于机器学习的数据压缩算法,采用常用的机器学习聚类和分类理论,使用K

均值、决策树等分类算法将具备较高相似性的数据聚集成同一个类中,然后对同一种数据进行压缩。
[0004]基于神经网络的数据压缩方法主要针对图像数据,通过神经网络自学习,提取出隐含在数据中的特征信息,进行数据压缩。压缩编码的核心思想是找到仿真文件支持的数据,并根据数据类型将数据进行分类,建立映射关系。
[0005]在工业生产领域产生的大量实时数据,为了提高实数据库的使用效率,必须要对存储的数据进行压缩等处理,使其占用更少的存储空间,提高数据库的容量。例如常用的基于不同类型数据采用不同数据压缩算法,首先对大量历史数据分析,将实时数据库中保存的数据分为数据型数据、时间型数据、代码型数据,对时间型和代码型数据采用RLE算法压缩,对布尔型数据、百分量型、浮点型数据采用LZW算法和LZ78算法结合的方式压缩。
[0006]由于设计仿真软件导出的文件数据量大需要压缩,包括的数据类型种类多,有信号、时间、输出、状态、日志数据的任意组合的,还包括网格、视频和图片等数据,其中网格数据是点线面。网格类型按形状分为三角形、四边形、四面体等,按阶次分为线性、二阶、多阶。本专利技术针对以上情况导致仿真软件中数据不能得到更有效的压缩的问题,基于神经网络数据多分类和预测方面的优势和不同类型数据采用不同数据压缩算法的方法,设计了基于神经网络的自适应算法选配模型。

技术实现思路

[0007]本专利技术针对上述问题,提供了一种设计仿真软件数据自适应压缩方法,解决了只是用一种或几种压缩方法对系统软件压缩的现状,使软件系统每部分数据都可以自动匹配最合适的压缩算法,提高了压缩率。
[0008]本专利技术是通过如下方案实现的:一种设计仿真软件数据自适应压缩方法,包括如下步骤:S1、初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码,S2、对仿真软件的被压缩文件进行扫描,读取出部分数据;S3、判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;S4、将压缩后的数据存储到文件缓存中,重复步骤S2直至所有数据都被压缩。
[0009]步骤S1中,获得样本数据时,从仿真数据的历史数据中,根据压缩数据的不同种类,依据相似数据法选择不同样本数据,分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据,并指定每条数据所属类别;或采用计算机程序生成相似类型的样本数据;对于图像数据、音频数据、视频数据采用其属性作为样本数据;对样本数据预处理,添加自定义词典和停用词典,对样本数据分词,去掉停用词,进行空格拼接,并写入到新的文件中。
[0010]编码和向量化:对数据集所属的不同类别标签数据进行OneHot编码,将离散数据的取值扩展到欧式空间形成矩阵,离散特征的某个取值就对应欧式空间中的某个点。使用Tokenizer对词进行编码,将文本数据转化为数字特性,截长补短使得所有样本长度一致,使用Embedding将每个词编码转化为词向量,对训练集进行shuffle处理。为了减少特征值差距很大对模型参数影响,严重影响模型参数分布,对样本数据整体归一化。
[0011]步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。
[0012]基于深度学习文本分类模型TextCNN建立自适应神经网络模型CNN,包括类别设定、词嵌入、卷积池化*n、拼接、全连接、dropout、全连接、优化函数、评价指标等步骤,使用数据序列中70%用于网络模型训练,后面30%用于精度训练,对每种样本数据对应的压缩算法进行编码作为网络的输出,使用深度学习方法不断调优,并保存训练好的模型。
[0013]自适应神经网络模型的训练包括如下步骤:S11、数据预处理:根据仿真软件中的不同的类型数据,选择不同的测试样本;使用lightgbm进行labelEncoder编码处理,同时对特征进行embeding处理,通过categorical_feature变量处理,使用了类别特征的最优切分进行了处理,使用0.25的样本比例随机拆分训练集和测试集;S12、创建训练和测试数据集:通过NumPy的array函数input_pred创建输入和输出训练和测试集,将输入数据转化为tensor归一化;缩放数据:使用fit_transform函数就进行缩放数据;将数据按比例缩放,使之落入一个设定区间,提升模型的训练速度和精确度;S13、构建基于keras的全连接网络模型。
[0014]步骤S13包括,S131、创建模型初始化函数Sequential,定义输入维度、输出维度、激励函数;设置多个隐藏层、激励函数、Dropout;S132、设置优化函数RMSprop:初始学习率lr=0.01,rho=0.9,epsilon和decay;S133、多分类任务中的使用交叉熵损失函数度量两个概率分布间的差异性信息,其中交叉损失函数: 其中p=[p0,..,p
c
‑1]是一个概率分布,每个元素pi表示样本属于第i类的概率,y=[y0,...,y
c
‑1]是样本标签的onehot表示,当样本属于第i个类别是y
i
=1,其他y
i
=0,c是样本标签,交叉损失函数程序代码:keras.losses.categorical_crossentropy(y_true, y);在模型中,使
用model.compile方法设置优化函数和分类交叉熵损失函数;S134、采用 回归,对每一个神经元输出求幂,然后再进行归一化操作,使各个分量的和为1;S135、调用model.fit开始训练测试集数据,并调用模型进行预测,计算计算损失和精确度,画出loss曲线,使用keras.metrics.categorical_accuracy计算多元分类的评价函数。...

【技术保护点】

【技术特征摘要】
1.一种设计仿真软件数据自适应压缩方法,其特征在于,包括如下步骤:S1、初始化阶段,获得样本数据,对每种样本数据对应的压缩算法进行编码;S2、对仿真软件的被压缩文件进行扫描,读取出部分数据;S3、判断数据类型,得到所选压缩算法的编号,调用编号对应的压缩算法进行压缩;S4、将压缩后的数据存储到文件缓存中,重复步骤S2直至所有数据都被压缩。2.根据权利要求1所述的设计仿真软件数据自适应压缩方法,其特征在于,步骤S1中,获得样本数据时,从仿真数据的历史数据中,根据压缩数据的不同种类,依据相似数据法选择不同样本数据,分别选择随机数据、重复数据、公式表示数据、编码数据、数值型数据、文本型数据,并指定每条数据所属类别;对于图像数据、音频数据、视频数据采用其属性作为样本数据;对样本数据预处理,添加自定义词典和停用词典,对样本数据分词,去掉停用词,进行空格拼接。3.根据权利要求1所述的设计仿真软件数据自适应压缩方法,其特征在于,步骤S1中对每种样本数据对应的压缩算法进行编码时,采用自适应神经网络模型进行编码, 自适应神经网络模型对每种样本数据对应的压缩算法进行编码作为网络的输出。4.根据权利要求3所述的设计仿真软件数据自适应压缩方法,其特征在于,自适应神经网络模型的训练包括如下步骤:S11、数据预处理:根据仿真软件中的不同的类型数据,选择不同的测试样本;使用lightgbm进行labelEncoder编码处理,同时对特征进行embeding处理,通过categorical_feature变量处理,使用了类别特征的最优切分进行了处理,使用0.25的样本比例随机拆分训练集和测试集;S12、创建训练和测试数据集:通过NumPy的array函数input_pred创建输入和输出训练和测试集,将输入数据转化为tensor归一化;缩放数据:使用fit_transform函数就进行缩放数据;将数据按比例缩放,使之落入一个设定区间,提升模型的训练速度和精确度;S13、构建基于keras的全连接网络模型。5.根据权利要求4所述的设计仿真软件数据自适应压缩方法,其特征在于,步骤S13包括,S131、创建模型初始化函数Sequential,定义输入维度、输出维度、激励函数;设置多个隐藏层、激励函数、Dropout;S132、设置优化函数RMSprop:初始学习率lr=0.01...

【专利技术属性】
技术研发人员:苏新新狄林林何新刘敏武晓旭田松
申请(专利权)人:山东华云三维科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1