污水行业数据清洗方法技术

技术编号:37113294 阅读:30 留言:0更新日期:2023-04-01 05:10
本发明专利技术公开了污水行业数据清洗方法,属于数据安全领域,该清洗方法具体步骤如下:(1)接收污水行业数据并进行风险排查;(2)构建行业数据库并进行数据质量检测;(3)构建数据清洗框架对行业数据进行清洗;(4)实时检测服务器运行效率并进行性能优化;本发明专利技术能够提高质量检测模型的检测精度和寻找参数的效率,同时不需要人工设置参数,操作过程简单、易操作,提高工作人员使用体验,能够进行大粒度压缩,提高压缩效率,有效的提高服务器响应效率,同时节省压缩内存所需的时间。省压缩内存所需的时间。省压缩内存所需的时间。

【技术实现步骤摘要】
污水行业数据清洗方法


[0001]本专利技术涉及数据安全领域,尤其涉及污水行业数据清洗方法。

技术介绍

[0002]为了将污水数据库进行精简,污水行业的数据清洗成为该行业重点关注对象之一;因此,专利技术出污水行业数据清洗方法变得尤为重要;
[0003]经检索,中国专利号CN109783813A公开了一种数据清洗方法及系统,该专利技术虽然通过分词结合计算Jaccard距离的方法将不规则的行业数据进行标准化处理,将不规则的企业行业数据清洗为国家标准中的对应数据的,增加了行业数据易用性,但是检测精度低,需要人工设置参数,操作步骤复杂;此外,现有的污水行业数据清洗方法服务器响应效率低,内存压缩所需时间较长;为此,我们提出污水行业数据清洗方法。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的污水行业数据清洗方法。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]污水行业数据清洗方法,该清洗方法具体步骤如下:
[0007](1)接收污水行业数据并进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.污水行业数据清洗方法,其特征在于,该清洗方法具体步骤如下:(1)接收污水行业数据并进行风险排查;(2)构建行业数据库并进行数据质量检测;(3)构建数据清洗框架对行业数据进行清洗;(4)实时检测服务器运行效率并进行性能优化。2.根据权利要求1所述的污水行业数据清洗方法,其特征在于,步骤(1)中所述风险排查具体步骤如下:步骤一:服务器接收接收行业数据,之后将接收到的行业数据中非二进制的数据转换为二进制,再通过Min

Max归一化方法将各组行业数据集转换至规定检测区间内;步骤二:之后服务器与病毒数据库以及云端虚拟机通信连接,并对各组行业数据中进行解析,再依据解析结果在病毒数据库进行数据检索对比,若存在对比结果一致的数据,则将相对应的行业数据进行拦截;步骤三:若不存在对比结果一致的数据,则将相关行业数据上传至云端虚拟机中进行传染模拟,之后服务器根据网络病毒定义而确立的传染标准对模拟结果进行病毒分析,并对分析结果一致的行业数据进行拦截。3.根据权利要求1所述的污水行业数据清洗方法,其特征在于,步骤(2)中所述数据质量检测具体步骤如下:步骤Ⅰ:构建质量检测模型,同时依据数据质量维度对该质量检测模型进行训练优化,之后依次将行业行业数据录入该质量检测模型中,质量测试模型依据不同企业对各组行业数据进行分类处理;步骤Ⅱ:之后对各组行业数据进行特征降维处理,并筛选出能够表示行业数据质量的特征参数,并筛除对于表征能力差的特征参数,将行业数据划分为训练集和测试集,并对训练集进行标准化处理以生成训练样本;步骤Ⅲ:将训练样本输送到质量检测模型中,依据优化结果设置模型最优参数,并采用长期迭代法训练该质量检测模型,并将测试集输入到训练好的模型中,画出数据准确性、通用性、完备性以及一致性曲线,并加以分析,同时对存在数据缺失、相似重复、异常、逻辑错误以及不一致的行业数据进行标记记录。4.根据权利要求3所述的污水行业数据清洗方法,其特征在于,步骤Ⅰ中所述数据质量维度具体包括数据规范、数据完整性准则、数据重复、数据准确性、一致性与同步性、及时性和可用性、易用性和可维护性、数据覆盖、表达质量、数据衰变、效用性以及可理解性、相关性和可信度;步骤Ⅱ中所述特征降维具体公式如下:其中,σ表示特征参数的标准差;μ表示特征参数的均值;CV表示特征参数的方差系数,若方差系数越大,则表示越重要,反之,则表示不重要,予以剔除;步骤Ⅱ中所述标准化处理具体公式如下:
式中,x表示提出的特征参数;mean(x)表示对所提特征参数进行平均处理;std(x)表示对特征参数求标准差。5.根据权利要求3所述的污水行业数据清洗方法,其特征在于,步骤Ⅰ中所述质量检测模型训练优化具体步骤如下:S1.1:服务器接收工作人员上传的测试数据集以及数据质量维度,从N组测试数据集中选择一组测试数据作为验证数据,使用剩下的数据拟合成一组测试模型,并用验证数据来验证测试模型精度,并通过均方根误差对该测试模型的检测能力进行计算,如此重复n次,再对生成的精度参数进行参数优化处理;S1.2:初始化参数范围,之后依据...

【专利技术属性】
技术研发人员:田志民牛豫海张自力马景春周晓萍滕国宝
申请(专利权)人:河北建投水务投资有限公司沧州市供水排水集团有限公司河北建投衡水水务有限公司库尔勒龙润水处理有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1