一种基于大数据的数据压缩处理方法技术

技术编号:39646001 阅读:13 留言:0更新日期:2023-12-09 11:13
本发明专利技术涉及数据压缩技术领域,具体涉及一种基于大数据的数据压缩处理方法

【技术实现步骤摘要】
一种基于大数据的数据压缩处理方法


[0001]本专利技术涉及数据压缩
,具体涉及一种基于大数据的数据压缩处理方法


技术介绍

[0002]在工业设备监测和故障诊断过程中,设备振动数据是一种重要的监测指标

然而,设备振动数据通常包含大量的采样点和高频率成分,导致数据量庞大,给数据传输和存储带来挑战

为了有效地利用大数据减少存储和传输的成本,数据压缩成为一个重要的研究领域

[0003]由于振动数据的精度要求不高,且振动数据是时序数据,故在进行数据存储时对数据的精度要求并非是必须无损的,故在对数据进行存储时可采用有损压缩的方式进行数据压缩存储

其中道格拉斯

普克算法在处理大规模数据集时有较好的效果,该算法的基本思想是通过删除一些不重要的点得到近似于原始数据的曲线,从而达到压缩数据的目的,但传统的道格拉斯

普克算法在对设备的振动数据进行压缩处理时,所选择的阈值为经验阈值,导致压缩效果较差


技术实现思路

[0004]为了解决现有的道格拉斯

普克算法在对工业设备的振动数据进行压缩处理时存在的压缩效果较差的问题,本专利技术的目的在于提供一种基于大数据的数据压缩处理方法,所采用的技术方案具体如下:本专利技术提供了一种基于大数据的数据压缩处理方法,该方法包括以下步骤:获取工业设备运行过程对应的振动数据序列;分别以所述振动数据序列中每个数据为中心数据,构建每个数据对应的窗口;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值

每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度;基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯

普克算法的阈值不断进行调整,确定最优阈值;基于所述最优阈值,采用道格拉斯

普克算法对振动数据序列进行压缩处理,获得压缩后的数据

[0005]优选的,所述根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益,包括:对于所述振动数据序列中的第
m
个数据:将第
m
个数据对应的窗口内所有数据的方差记为第一方差,将第
m
个数据对应的窗口内除第
m
个数据外的其他所有数据的方差记为第二方差;将所述第一方差与所述第二方差的差值绝对值,确定为第
m
个数据对应的方差增


[0006]优选的,所述根据每个数据与数据的正常波动范围的差异值

每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度,包括:对于所述振动数据序列中的第
m
个数据:根据第
m
个数据与数据的正常波动范围的差异,确定第
m
个数据对应的偏差值;将第
m
个数据对应的偏差值与工业设备可承受的最大差异值的比值,作为第
m
个数据的偏差程度;根据第
m
个数据的偏差程度和第
m
个数据对应的方差增益,计算第
m
个数据的重要程度

[0007]优选的,根据第
m
个数据与数据的正常波动范围的差异,确定第
m
个数据对应的偏差值,包括:若第
m
个数据小于数据的正常波动范围的下限值,则将数据的正常波动范围的下限值与第
m
个数据的差值作为第
m
个数据对应的偏差值;若第
m
个数据大于等于数据的正常波动范围的下限值,且小于等于数据的正常波动范围的上限值,则令第
m
个数据对应的偏差值为0;若第
m
个数据大于数据的正常波动范围的上限值,则将第
m
个数据与数据的正常波动范围的上限值的差值作为第
m
个数据对应的偏差值

[0008]优选的,采用如下公式计算第
m
个数据的重要程度:;其中,
G
m
为第
m
个数据的重要程度,
f
m
为第
m
个数据对应的偏差值,
f
max
为工业设备可承受的最大差异值,为第
m
个数据对应的第一权重系数,为第
m
个数据对应的第二权重系数,
Δ
d
m
为第
m
个数据对应的方差增益,
exp( )
为以自然常数为底数的指数函数

[0009]优选的,第
m
个数据对应的第一权重系数和第二权重系数的获取,包括:若第
m
个数据对应的方差增益大于等于预设方差增益阈值,且第
m
个数据的偏差程度为0,则将第
m
个数据对应的第一权重系数和第二权重系数均设置为基础权重;若第
m
个数据对应的方差增益小于预设方差增益阈值,且第
m
个数据的偏差程度为0,则对第
m
个数据对应的窗口内所有数据的方差进行负相关归一化处理获得负相关归一化结果,将负相关归一化结果

基础权重以及预设第一超参数三者的乘积记为第一特征值;将基础权重与所述第一特征值之和作为第
m
个数据对应的第一权重系数,将基础权重与所述第一特征值的差值作为第
m
个数据对应的第二权重系数;其中,预设第一超参数大于0;若第
m
个数据对应的方差增益大于等于预设方差增益阈值,且第
m
个数据的偏差程度不为0,则将基础权重


m
个数据的偏差程度以及预设第一超参数三者的乘积记为第二特征值;将基础权重与所述第二特征值之和作为第
m
个数据对应的第一权重系数,将基础权重与所述第二特征值的差值作为第
m
个数据对应的第二权重系数;若第
m
个数据对应的方差增益小于预设方差增益阈值,且第
m
个数据的偏差程度不为0,则将基础权重

所述第一特征值

所述第二特征值三者之和作为第
m
个数据对应的第一权重系数,将基础权重与所述第一特征值的差值记为第一差值,将所述第一差值与所述第二特征值的差值作为第
m
个数据对应的第二权重系数

[0010]优选的,所述基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值,包括:对于所述振动数据序列中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据的数据压缩处理方法,其特征在于,该方法包括以下步骤:获取工业设备运行过程对应的振动数据序列;分别以所述振动数据序列中每个数据为中心数据,构建每个数据对应的窗口;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值

每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度;基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯

普克算法的阈值不断进行调整,确定最优阈值;基于所述最优阈值,采用道格拉斯

普克算法对振动数据序列进行压缩处理,获得压缩后的数据
。2.
根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,所述根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益,包括:对于所述振动数据序列中的第
m
个数据:将第
m
个数据对应的窗口内所有数据的方差记为第一方差,将第
m
个数据对应的窗口内除第
m
个数据外的其他所有数据的方差记为第二方差;将所述第一方差与所述第二方差的差值绝对值,确定为第
m
个数据对应的方差增益
。3.
根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,所述根据每个数据与数据的正常波动范围的差异值

每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度,包括:对于所述振动数据序列中的第
m
个数据:根据第
m
个数据与数据的正常波动范围的差异,确定第
m
个数据对应的偏差值;将第
m
个数据对应的偏差值与工业设备可承受的最大差异值的比值,作为第
m
个数据的偏差程度;根据第
m
个数据的偏差程度和第
m
个数据对应的方差增益,计算第
m
个数据的重要程度
。4.
根据权利要求3所述的一种基于大数据的数据压缩处理方法,其特征在于,根据第
m
个数据与数据的正常波动范围的差异,确定第
m
个数据对应的偏差值,包括:若第
m
个数据小于数据的正常波动范围的下限值,则将数据的正常波动范围的下限值与第
m
个数据的差值作为第
m
个数据对应的偏差值;若第
m
个数据大于等于数据的正常波动范围的下限值,且小于等于数据的正常波动范围的上限值,则令第
m
个数据对应的偏差值为0;若第
m
个数据大于数据的正常波动范围的上限值,则将第
m
个数据与数据的正常波动范围的上限值的差值作为第
m
个数据对应的偏差值
。5.
根据权利要求3所述的一种基于大数据的数据压缩处理方法,其特征在于,采用如下公式计算第
m
个数据的重要程度:;其中,
G
m
为第
m
个数据的重要程度,
f
m
为第
m
个数据对应的偏差值,
f
max
为工业设备可承受的最大差异值,为第
m
个数据对应的第一权重系数,为第
m
个数据对应的第二权重系数,
Δ
d
m
为第
m
个数据对应的方差增益,
exp( )
为以自然常数为底数的指数函数

6.
根据权利要求5所述的一种基于大数据的数据压缩处理方法,其特征在于,第
m
个数据对应的第一权重系数和第二权重系数的获取,包括:若第
m
个数据对应的方差增益大于等于预设方差增益阈值,且第
m
个数据的偏差程度为0,则将第
m
个数据对应的第一权重系数和第二权重系数均设置为基础权重;若第
m
个数据对应的方差增益小于预设方差增益阈值,且...

【专利技术属性】
技术研发人员:曲宝春张斌
申请(专利权)人:苏州爱雄斯通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1