System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据清洗方法、装置、设备及存储介质制造方法及图纸_技高网

一种数据清洗方法、装置、设备及存储介质制造方法及图纸

技术编号:40232790 阅读:8 留言:0更新日期:2024-02-02 22:34
本申请公开了一种数据清洗方法、装置、设备及存储介质。在执行本申请实施例提供的方法时,首先可以获取待清洗工业安全数据,并对待清洗工业安全数据进行数据划分得到多个数据类型。提取每个数据类型对应的特征数据构建特征数据的特征矩阵,并计算特征矩阵的归一化得分矩阵,归一化得分矩阵中的归一化得分用于指示待清洗工业安全数据的质量重要性等级。再基于归一化得分确定待清洗工业安全数据的质量重要性等级,并根据质量重要性等级对待清洗工业安全数据进行数据清洗。本申请基于质量重要性等级对待清洗工业安全数据进行数据清洗,可以使得清洗工作更加高效、有针对性,从而提高数据的准确性和可靠性,进而增强工业生产环境的安全性。

【技术实现步骤摘要】

本申请涉及数据处理,具体涉及一种数据清洗方法、装置、设备及存储介质


技术介绍

1、工业数据可能会受到各种干扰,包括设备故障、传感器误差、噪声干扰等,因此需要进行数据清洗以确保数据质量和准确性。但是工业环境中的工业数据可能来自不同设备,如安全设备、传感器、控制器、主机、交换机以及hmi(human-machine interface,人机界面)等设备,使得工业数据种类较多。

2、而现有的一些数据清洗和汇聚软件使用的算法相对单一,是直接对全部工业数据进行统一算法的清洗,由于工业数据种类较多,这种清洗方式会导致低质量的数据在数据清洗时出现误报或遗漏的情况,从而降低数据清洗的准确率和效率,进而影响工业生产环境的安全性。

3、因此,如何提高数据清洗的准确率和效率,从而提高工业生产环境的安全性,是本领域技术人员急需解决的技术问题。


技术实现思路

1、基于上述问题,本申请提供了一种数据清洗方法、装置、设备及存储介质,可以提高数据清洗的准确率和效率,从而提高工业生产环境的安全性。

2、本申请实施例公开了如下技术方案:

3、一种数据清洗方法,所述方法包括:

4、获取待清洗工业安全数据,并对所述待清洗工业安全数据进行数据划分得到多个数据类型;

5、提取每个数据类型对应的特征数据,并构建所述特征数据的特征矩阵;

6、计算所述特征矩阵的归一化得分矩阵,其中,所述归一化得分矩阵中的归一化得分用于指示所述待清洗工业安全数据的质量重要性等级;

7、基于所述归一化得分确定所述待清洗工业安全数据的质量重要性等级,所述质量重要性等级包括工业安全数据的质量等级和工业安全数据的重要性等级;

8、根据所述质量重要性等级对所述待清洗工业安全数据进行数据清洗。

9、在一种可能的实现方式中,所述计算所述特征矩阵的归一化得分矩阵,包括:

10、为所述特征矩阵中的各个特征数据分配质量权重和重要性权重得到权重矩阵,并对所述权重矩阵中的各个数据进行归一化得到归一化权重矩阵;

11、基于所述归一化权重矩阵计算所述每个数据类型对应的加权特征得分,构建加权特征得分矩阵;

12、计算所述加权特征得分的归一化得分,构建所述归一化得分矩阵。

13、在一种可能的实现方式中,所述基于所述归一化权重矩阵计算所述每个数据类型对应的加权特征得分,构建加权特征得分矩阵,包括:

14、根据所述归一化权重中的归一化权重利用加权计算公式计算所述每个数据类型的所述加权特征得分得到加权特征得分矩阵,其中,所述加权计算公式为:si为第i个数据类型的加权特征得分;n为i个数据类型对应的所述特征数据的数量;xij为第i个数据类型的第j个的特征数据;wi′j为第i个数据类型的第j个特征数据的归一化权重。

15、在一种可能的实现方式中,所述质量重要性等级包括:高质量高重要性、低质量高重要性、高质量低重要性以及低质量低重要性中的一种。

16、在一种可能的实现方式中,所述基于所述归一化得分确定所述待清洗工业安全数据的质量重要性等级,包括:

17、当所述归一化得分符合第一阈值范围时,确定所述待清洗工业安全数据的质量重要性等级为所述高质量高重要性;

18、当所述归一化得分符合第二阈值范围时,确定所述待清洗工业安全数据的质量重要性等级为所述低质量高重要性;

19、当所述归一化得分符合第三阈值范围时,确定所述待清洗工业安全数据的质量重要性等级为所述高质量低重要性;

20、当所述归一化得分符合第四阈值范围时,确定所述待清洗工业安全数据的质量重要性等级为所述低质量低重要性。

21、在一种可能的实现方式中,所述根据所述质量重要性等级对所述待清洗工业安全数据进行数据清洗,包括:

22、当所述待清洗工业安全数据的质量重要性等级为所述高质量高重要性时,利用标准得分统计法对所述待清洗工业安全数据进行数据清洗;

23、当所述待清洗工业安全数据的质量重要性等级为所述低质量高重要性时,利用线性插值法对所述待清洗工业安全数据进行数据清洗;

24、当所述待清洗工业安全数据的质量重要性等级为所述高质量低重要性时,利用移动平均滤波降噪法对所述待清洗工业安全数据进行数据清洗;

25、当所述待清洗工业安全数据的质量重要性等级为所述低质量低重要性时,利用描述数据分布法对所述待清洗工业安全数据进行数据清洗。

26、在一种可能的实现方式中,所述方法还包括:

27、对经过所述数据清洗的所述待清洗工业安全数据进行质量评估得到评估结果;

28、当所述评估结果中包括数据出现异常值、数据存在缺失值、数据不一致以及数据错误中的一种或多种情况时,向客户端发出报警。

29、一种数据清洗装置,所述装置包括:

30、获取划分单元,用于获取待清洗工业安全数据,并对所述待清洗工业安全数据进行数据划分得到多个数据类型;

31、提取构建单元,用于提取每个数据类型对应的特征数据,并构建所述特征数据的特征矩阵;

32、第一计算单元,用于计算所述特征矩阵的归一化得分矩阵,其中,所述归一化得分矩阵中的归一化得分用于指示所述待清洗工业安全数据的质量重要性等级;

33、第一确定单元,用于基于所述归一化得分确定所述待清洗工业安全数据的质量重要性等级,所述质量重要性等级包括工业安全数据的质量等级和工业安全数据的重要性等级;

34、第一数据清洗单元,用于根据所述质量重要性等级对所述待清洗工业安全数据进行数据清洗。

35、一种数据清洗设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的数据清洗方法。

36、一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述的数据清洗方法。

37、相较于现有技术,本申请具有以下有益效果:

38、本申请提供了一种数据清洗方法、装置、设备及存储介质。具体地,在执行本申请实施例提供的数据清洗方法时,首先可以获取待清洗工业安全数据,并对待清洗工业安全数据进行数据划分得到多个数据类型。接着,提取每个数据类型对应的特征数据构建特征数据的特征矩阵,并计算特征矩阵的归一化得分矩阵。然后基于归一化得分确定待清洗工业安全数据的质量重要性等级。再根据质量重要性等级对待清洗工业安全数据进行数据清洗。本申请能够根据实际数据质量,自动选择合适的清洗算法,这样可以减少低质量数据对分析的影响,从而提高数据质量,进而增加分析和决策的准确性。同时,根据数据的质量和重要性对待清洗工业安全数据进行数据清洗,可以避免在高质量低重要性数据上使用复杂的清洗算法,能够节省计算资源和时间。相反,在低质量高重要性数据上使本文档来自技高网...

【技术保护点】

1.一种数据清洗方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算所述特征矩阵的归一化得分矩阵,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述归一化权重矩阵计算所述每个数据类型对应的加权特征得分,构建加权特征得分矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,所述质量重要性等级包括:高质量高重要性、低质量高重要性、高质量低重要性以及低质量低重要性中的一种。

5.根据权利要求4所述的方法,其特征在于,所述基于所述归一化得分确定所述待清洗工业安全数据的质量重要性等级,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述质量重要性等级对所述待清洗工业安全数据进行数据清洗,包括:

7.根据权利要求4所述的方法,其特征在于,所述方法还包括:

8.一种数据清洗装置,其特征在于,所述装置包括:

9.一种数据清洗设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的数据清洗方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的数据清洗方法。

...

【技术特征摘要】

1.一种数据清洗方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算所述特征矩阵的归一化得分矩阵,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述归一化权重矩阵计算所述每个数据类型对应的加权特征得分,构建加权特征得分矩阵,包括:

4.根据权利要求1所述的方法,其特征在于,所述质量重要性等级包括:高质量高重要性、低质量高重要性、高质量低重要性以及低质量低重要性中的一种。

5.根据权利要求4所述的方法,其特征在于,所述基于所述归一化得分确定所述待清洗工业安全数据的质量重要性等级,包括:

6.根据权利要求4所...

【专利技术属性】
技术研发人员:陈凌奎李树艳屠昌乐张志群王剑东
申请(专利权)人:浙江国利网安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1