System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大数据的数据优化方法及系统技术方案_技高网

一种基于大数据的数据优化方法及系统技术方案

技术编号:40036415 阅读:4 留言:0更新日期:2024-01-16 19:02
本发明专利技术公开了一种基于大数据的数据优化方法及系统,涉及数据优化技术领域,从第一数据序列上筛选出缺失值及异常值进行标注,若被标注位置在第一数据序列的比例超过预设的比例阈值,识别获取第一数据序列的数据特征,在优化方案库中匹配出对应的优化方案,生成第二数据序列;若设备状态系数S(t,t)超过预设的状态阈值,对优化后的第二数据序列的数据质量进行评估,生成数据质量系数Zp(σ,∈),判断数据处理设备的运行状态对数据质量系数Zp(σ,v)的影响程度,若是该影响程度超过预期,对数据处理设备的运行状态自适应性调整;通过改善数据处理设备的运行状态的方式,对数据优化过程进行改善,取得更好的优化效果。

【技术实现步骤摘要】

本专利技术涉及数据优化,具体为一种基于大数据的数据优化方法及系统


技术介绍

1、数据优化是指在数据处理和管理过程中,通过各种技术和策略来提升数据的质量、效率和可用性,以达到更好的业务结果。数据优化涵盖了从数据采集、存储、清洗、分析到呈现等各个环节,旨在使数据更有意义、更有价值。

2、在涉及污水数据时,其种类多且数据量大,数据结构也较为复杂,特别是由于污水数据是由很多不同检测设备或传感器所得,而对应的检测设备或传感器由于受到工作环境影响,在输出污水数据时,可能会存在较多的缺失值和异常值等,因此,污水数据在使用前,必须要进行优化。

3、在申请号为202110646039.0的中国专利技术专利中公开了一种基于互联网和大数据的污水处理方法及系统,包括获取在预设的原始待处理区域中按照特定比例选定的目标待处理区域,基于大数据技术根据所述区域获取完成指令分别获取所述第一污水待优化区域、所述污水优化高级区域和所述第二污水待优化区域对应的污水治理成效数据,根据参考型待优化数据对第一待优化数据和所述第二待优化数据作数据优化处理,并生成数据优化报告基于互联网技术存储。

4、以上申请通过根据污水优化高级区域的数据,对所述第一待优化数据和所述第二待优化数据进行优化处理,进而实现大区域的污水处理的同时优化,基于大数据和互联网技术实现了数据的高效分析和存储,进而提升污水数据处理的效率与高效性。

5、但是,在以上记载的技术方案中,在对数据进行优化处理时,未对数据处理设备的运行状态进行考虑,而若当前数据处理设备运行状态较差时,其会对数据优化带来一定的负面影响,使优化处理后的污水数据难以达到预期,进而使数据优化效果较差。

6、为此,本专利技术提供了一种基于大数据的数据优化方法及系统。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于大数据的数据优化方法及系统,通过识别获取第一数据序列的数据特征,在优化方案库中匹配出对应的优化方案,生成第二数据序列;对优化后的第二数据序列的数据质量进行评估,生成数据质量系数zp(σ,∈),判断数据处理设备的运行状态对数据质量系数zp(σ,v)的影响程度,若是该影响程度超过预期,对数据处理设备的运行状态自适应性调整;通过改善数据处理设备的运行状态的方式,对数据优化过程进行改善,取得更好的优化效果,以解决
技术介绍
中提出的,未考虑数据处理设备的运行状态,会对数据优化带来一定的负面影响,使优化处理后的污水数据难以达到预期,进而使数据优化效果较差的技术问题。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现:

5、一种基于大数据的数据优化方法,包括如下:对污水数据依类别分列,生成若干种第一数据序列,从第一数据序列上筛选出缺失值及异常值进行标注,若被标注位置在第一数据序列的比例超过预设的比例阈值,则发出优化指令;

6、在接收优化指令后,识别获取第一数据序列的数据特征,在优化方案库中匹配出对应的优化方案,对第一数据序列优化,生成第二数据序列;对污水数据的处理设备的运行状态进行监测,汇总建立设备运行数据集并生成设备状态系数s(t,t),若设备状态系数s(t,t)超过预设的状态阈值,向外部发出第一预警信息;其中,设备状态系数s(t,t)的生成方式如下:通过线性归一化,将设备运行数据集中的资源利用率zt及运行温度wt进行线性变换,将数据值映射到[0,1]之间,再依照如下公式

7、

8、其中,权重系数取值如下:0≤β≤1,0≤α≤1,且α+β=1,其具体值由用户调整设置,i=1,2…n,n为资源利用率zt及运行温度wt的个数;若获取的设备状态系数s(t,t)超过预设的状态阈值,向外部发出第一预警信息;

9、接收第一预警信息后,对优化后的第二数据序列的数据质量进行评估,生成数据质量系数zp(σ,∈),若所生成的数据质量系数zp(σ,∈)低于数据质量阈值,发出第二预警信息;通过多重线性回归分析判断数据处理设备的运行状态对数据质量系数zp(σ,v)的影响程度,若是该影响程度超过预期,则在发出调整指令后生成调整策略,对数据处理设备的运行状态自适应性调整,若再次获取数据质量系数zp(σ,v)不高于前值,发出提示信息。

10、进一步地,将处理后的污水数据汇总,建立污水数据集;对污水数据依类别分列,并分别依据污水产生的时间为污水数据添加时间戳,依照时间戳对污水数据进行排列,依据污水数据的种类生成若干种第一数据序列;依据若干时间戳将各个第一数据序列对齐,判断当前的第一数据序列是否存在缺失值,若是存在,则对该缺失值的位置进行标注。

11、进一步的,获取与第一数据序列内污水数据相对应的历史数据,从已优化后污水数据中获取其最大值、均值及最小值,获取最大值与最小值之间的比值,以所述均值与所述比值的积和商分别作为上限阈值及下限阈值;将第一序列数据内,污水数据在上限阈值之上及下限阈值之下的值作为异常值,对异常值及其所处位置形成标注,若被标注位置在第一数据序列的比例超过预设的比例阈值,则发出优化指令。

12、进一步的,接收优化指令后,识别标注后第一数据序列的数据特征,以数据特征对第一数据序列进行描述;通过公开渠道以线性检索的方式,检索或收集若干个数据优化方案,在汇总后建立数据的优化方案库;依据数据特征和数据优化方案的对应性,从优化方案库中匹配出对应的优化方案,以所匹配出的优化方案对第一数据序列优化,并获取优化后的数据序列,将其标注为第二数据序列。

13、进一步的,在数据处理设备用于对污水数据进行处理及优化时,在数据处理设备外部设置多个监测点,由监测点处获取数据处理设备当前的运行温度,在平均后生成运行温度wt;查询数据处理设备的任务管理器,分别获取cpu、内存及磁盘的利用率,以1:2:3的比例加权平均后获取资源利用率zt;在附加时间戳后,以固定的时间间隔,沿着时间轴连续获将以上数据获取若干组,汇总建立设备运行数据集。

14、进一步的,接收到第一预警信息后,对获取的第二数据序列的数据质量进行评估,具体方式如下,对第二数据序列内污水数据进行线性变换后,将对应数据值映射到[0,1]之间,依照如下公式:

15、

16、其中,i为当前的污水数据在第二数据序列内的序号,i=1,2…n,ri为在i位置上的污水数据值,为i位置及之前污水数据的均值,其中,vσi为污水数据的第一中间值,v∈i为污水数据的第二中间值。

17、进一步的,依照如下公式生成数据质量系数zp(σ,∈):

18、

19、其中,i=1,2…n,n为大于1的正整数,0≤ζ≤1,0≤ψ≤1,且ζ+ψ=1,其具体值由用户调整设置,其中,为若干个第一中间值的均值,为若干个第二中间值的均值;若生成的数据质量系数zp(σ,v)低于预设的数据质量阈值,则向外部发出第二预警信息。

20、进一步的,在评本文档来自技高网...

【技术保护点】

1.一种基于大数据的数据优化方法,其特征在于:包括如下:

2.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

3.根据权利要求2所述的一种基于大数据的数据优化方法,其特征在于:

4.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

5.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

6.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

7.根据权利要求6所述的一种基于大数据的数据优化方法,其特征在于:

8.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

9.根据权利要求8所述的一种基于大数据的数据优化方法,其特征在于:

10.一种基于大数据的数据优化系统,其特征在于:包括:

【技术特征摘要】

1.一种基于大数据的数据优化方法,其特征在于:包括如下:

2.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

3.根据权利要求2所述的一种基于大数据的数据优化方法,其特征在于:

4.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

5.根据权利要求1所述的一种基于大数据的数据优化方法,其特征在于:

【专利技术属性】
技术研发人员:刀昆
申请(专利权)人:黑龙江熙茂网络科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1