一种基于大数据的热力供需信息管理平台制造技术

技术编号:35247648 阅读:17 留言:0更新日期:2022-10-19 09:55
本发明专利技术涉及数据压缩技术领域,具体涉及一种基于大数据的热力供需信息管理平台,该系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:根据获取的该热力供需数据序列,得到该热力供需数据序列对应的各子数据段;根据各子数据段,计算各子数据段的变换必要性指标;将变换必要性指标大于等于必要性阈值的各子数据段进行处理,得到各第一目标数据段;根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,得到各子数据段的压缩信息。本发明专利技术提高了压缩率。本发明专利技术提高了压缩率。本发明专利技术提高了压缩率。

【技术实现步骤摘要】
一种基于大数据的热力供需信息管理平台


[0001]本专利技术涉及数据压缩
,具体涉及一种基于大数据的热力供需信息管理平台。

技术介绍

[0002]热力供应属于供热地区冬季生活的必需品,需求较强;近年来一些城市出台政策容许社会资本参与基础设施特许经营,进而城市基础设施建设进一步提速;随着城市建设步伐的加快,该行业存在巨大的市场潜力,尤其是在集中供热和热电联产等方面具有巨大的前景。
[0003]传统热力供需信息管理平台为了满足热力公司的需求,拥有多个管理模块,例如客户信息管理、报表管理、收费管理、巡检稽查管理等;热力供需信息管理平台中每时每刻监测到的数据都是海量的,因此如何提高对数据的压缩率,以增加平台数据的存储量是非常重要的。

技术实现思路

[0004]为了解决如何提高对数据的压缩率的问题,本专利技术的目的在于提供一种基于大数据的热力供需信息管理平台,所采用的技术方案具体如下:本专利技术提供了一种基于大数据的热力供需信息管理平台,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:获取采集到的任一类型的热力供需数据序列;根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段;根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段;对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段;根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。
[0005]优选的,所述根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,包括:设置初始数据段长度为m;对于热力供需数据序列对应的第一个子数据段:按照该热力供需数据序列中元素的排列顺序选取该热力供需数据序列中前m个元素;计算该热力供需数据序列中前m个元素
的熵值,判断所述前m个元素的熵值是否小于预设熵值阈值,若小于,则将所述前m个元素记为第一个子数据段;若不小于,则选取该热力供需数据序列中前m+1个元素,计算该热力供需数据序列中前m+1个元素的熵值,判断前m+1个元素的熵值是否小于预设熵值阈值,若小于,则将该热力供需数据序列中前m+1个元素记为第一个子数据段;若不小于,则继续递增元素数量,直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中前m+n1个元素记为第一个子数据段;其中,n1为第一个子数据段递增的数据量;将第一个子数据段中的元素数量记为G1;从该热力供需数据序列中第G1+1个元素开始,选取该热力供需数据序列中连续的m个元素;计算所述连续的m个元素的熵值,判断所述连续的m个元素的熵值是否小于预设熵值阈值,若小于,则将所述连续的m个元素记为第二个子数据段;若不小于,则依次类推直至得到该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值;将该热力供需数据序列中连续m+n2个元素记为第二个子数据段;其中,n2为第一个子数据段递增的数据量;依次类推,直至将该热力供需数据序列完全划分,得到该热力供需数据序列对应的各子数据段。
[0006]优选的,对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为:其中,为该数据段的熵值,G为该数据段中元素的数量,K为该数据段中的数据类型的数量,为该数据段中第j个数据类型出现的概率。
[0007]优选的,所述根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标,包括:对于任一子数据段对应的变换必要性指标的计算公式为:其中,D为该子数据段对应的变换必要性指标,为该子数据段中第i个数据类型出现的概率,为该子数据段中各数据类型出现的概率的均值,n为该子数据段中的数据类型的数量,为该子数据段中第i个数据类型第o次连续出现的长度,为该子数据段中第i个数据类型连续出现的次数,为该子数据段中第i个数据类型出现的次数。
[0008]优选的,对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段,包括:利用BWT算法对各第一数据段进行变换处理,得到变换后的各第一目标数据段。
[0009]优选的,所述根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,包括:对于任一目标数据段:将该目标数据段的中点作为分隔点;根据该目标数据段的分隔点将该目标数据段分为等长的两段,将第一段记为不动段,将第二段记为滑动段;将滑动段与不动段的首部对
齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第一个循环;将该目标数据段的分隔点向前移动1个数据距离,此时不动段中的元素个数为,滑动段中的元素个数为,其中,B为该目标数据段中元素的总数量;将滑动段与不动段的首部对齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第二个循环;以此类推,直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环;根据每一次循环获取到的最长重复数据段,选择每次循环对应的最长重复数据段中长度最大的最长重复数据段作为该目标数据段对应的最长重复数据段。
[0010]优选的,所述根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小,包括:对于任一目标数据段:其中,C为该目标数据段对应的最优滑窗大小,为该目标数据段对应的最大重复数据段的长度,为该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度。
[0011]本专利技术具有如下有益效果:本专利技术首先根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,然后根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;本专利技术将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,然后对各第一数据段进行变换处理,得到各第一目标数据段,所述经过变换后的各第一目标数据段中同一数据类型的元素更加集中,以提高后续对数据压缩时的压缩率;本专利技术将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段,所述第二目标数据段不需要进行变换处理;接着,根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,进而计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;最后利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。本专利技术通过对数据段进行变换,使数据段中的相同的元素尽可能的集中分布,并自适应的设置对数据段进行压缩时所需要的滑动窗口的大小,提高了压缩率。
附图说明
[0012]为了更清楚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的热力供需信息管理平台,包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:获取采集到的任一类型的热力供需数据序列;根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段;根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段;对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段;根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。2.根据权利要求1所述的一种基于大数据的热力供需信息管理平台,其特征在于,所述根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,包括:设置初始数据段长度为m;对于热力供需数据序列对应的第一个子数据段:按照该热力供需数据序列中元素的排列顺序选取该热力供需数据序列中前m个元素;计算该热力供需数据序列中前m个元素的熵值,判断所述前m个元素的熵值是否小于预设熵值阈值,若小于,则将所述前m个元素记为第一个子数据段;若不小于,则选取该热力供需数据序列中前m+1个元素,计算该热力供需数据序列中前m+1个元素的熵值,判断前m+1个元素的熵值是否小于预设熵值阈值,若小于,则将该热力供需数据序列中前m+1个元素记为第一个子数据段;若不小于,则继续递增元素数量,直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中前m+n1个元素记为第一个子数据段;其中,n1为第一个子数据段递增的数据量;将第一个子数据段中的元素数量记为G1;从该热力供需数据序列中第G1+1个元素开始,选取该热力供需数据序列中连续的m个元素;计算所述连续的m个元素的熵值,判断所述连续的m个元素的熵值是否小于预设熵值阈值,若小于,则将所述连续的m个元素记为第二个子数据段;若不小于,则依次类推直至得到该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值;将该热力供需数据序列中连续m+n2个元素记为第二个子数据段;其中,n2为第一个子数据段递增的数据量;依次类推,直至将该热力供需数据序列完全划分,...

【专利技术属性】
技术研发人员:刘宾李栓柱袁绪彬袁绪龙贺庆壮徐祥琦
申请(专利权)人:山东西曼克技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1