System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,并且更具体地,涉及一种脏数据的检测方法、装置以及计算设备。
技术介绍
1、脏数据(dirty read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。这些数据不能为企业带来价值,反而会占据存储空间,浪费企业的资源。因此,这些数据被称为“脏”数据,不仅没有价值,还会“污染”其他的数据。因此,检测脏数据并清理脏数据成为业界亟需要解决的问题。
2、相关的技术方案中,通过向用户展示待检测数据的基础数据模式,用户基于该基础数据模式进行脏数据的检测。该方案中,通过人工检测脏数据,不仅效率较低,而且准确率不高。
3、因此,如何提高脏数据检测的效率成为亟需要解决的技术问题。
技术实现思路
1、本申请提供一种脏数据的检测方法、装置以及计算设备,该方法不仅可以提高脏数据的检测效率,还可以提高脏数据检测的准确率。
2、第一方面,提供了一种脏数据的检测方法,包括:取待检测的业务数据,根据业务编码规则确定所述待检测的业务数据中的至少一个脏数据,所述业务编码规则为所述待检测的业务数据对应的业务数据模式。
3、上述技术方案中,可以基于不同的业务数据对应的编码规则自动检测脏数据,这样,一方面,自动检测脏数据相对于人工检测脏数据,可以提高脏数据检测的效率,另一方面,基于不同的业务数据对应的编码规则自动检测脏数据,检测出的脏数据准确率较高。
4、结合第一方面,在第
5、结合第一方面,在第一方面的某些实现方式中,所述方法还包括:确定所述至少一个脏数据产生的原因,并向所述用户展示所述至少一个脏数据产生的原因。
6、结合第一方面,在第一方面的某些实现方式中,所述方法还包括:获得用户确认的脏数据集合,所述脏数据集合中包括至少一个脏数据;将所述脏数据集合从所述待检测的业务数据中分离。
7、结合第一方面,在第一方面的某些实现方式中,接收用户的指示信息,所述指示信息用于指示将第一脏数据标记为正常数据,所述第一脏数据为所述至少一个脏数据中的一个脏数据;将所述至少一个脏数据中除所述第一脏数据之外的其他脏数据作为所述用户确认的脏数据集合。
8、结合第一方面,在第一方面的某些实现方式中,所述方法还包括:根据所述用户标记的正常数据的历史行为,对确定所述待检测的业务数据中的至少一个脏数据的过程进行优化。
9、上述技术方案中,可以基于用户(也可以称为数据使用者)交互确认的数据,持续学习,以优化脏数据识别的准确率,提升脏数据识别的结果。例如,用户标记表中的空值类型脏数据为正常数据,则说明该表支持空值类型的数据,那么后针对于该表不再推荐空值类型的脏数据。
10、结合第一方面,在第一方面的某些实现方式中,所述待检测的业务数据为一张表上的业务数据,或多张表上的业务数据。
11、第二方面,提供了一种脏数据的检测装置,包括:获取模块,检测模块,其中,获取模块用于获取待检测的业务数据;检测模块用于根据业务编码规则确定所述待检测的业务数据中的至少一个脏数据,所述业务编码规则为所述待检测的业务数据对应的业务的数据模式。
12、结合第二方面,在第二方面的某些实现方式中,所述装置还包括:展示模块,用于向用户展示所述至少一个脏数据。
13、结合第二方面,在第二方面的某些实现方式中,所述检测模块还用于确定所述至少一个脏数据产生的原因;所述展示模块还用于向所述用户展示所述至少一个脏数据产生的原因。
14、结合第二方面,在第二方面的某些实现方式中,所述装置还包括分离模块,所述获取模块还用于获得用户确认的脏数据集合,所述脏数据集合中包括至少一个脏数据;所述分离模块用于将所述脏数据集合从所述待检测的业务数据中分离。
15、结合第二方面,在第二方面的某些实现方式中,所述获取模块具体用于:接收用户的指示信息,所述指示信息用于指示将第一脏数据标记为正常数据,所述第一脏数据为所述至少一个脏数据中的一个脏数据;将所述至少一个脏数据中除所述第一脏数据之外的其他脏数据作为所述用户确认的脏数据集合。
16、结合第二方面,在第二方面的某些实现方式中,所述装置还包括:优化模块,用于根据所述用户标记的正常数据的历史行为,对确定所述待检测的业务数据中的至少一个脏数据的过程进行优化。
17、结合第二方面,在第二方面的某些实现方式中,所述待检测的业务数据为一张表上的业务数据,或多张表上的业务数据。
18、第三方面,提供了一种计算设备,包括处理器和存储器,可选地,还包括输入输出接口。其中所述处理器用于控制所述输入输出接口收发信息,所述存储器用于存储计算机程序,所述处理器用于从存储器中调用并运行该计算机程序,使得所述执行第一方面或第一方面任意一种可能的实现方式中所述的方法。
19、可选地,该处理器可以是通用处理器,可以通过硬件来实现也可以通过软件来实现。当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
20、第四方面,提供了一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行第一方面或第一方面任意一种可能的实现方式中所述的方法。
21、第五方面,提供了一种芯片,该芯片获取指令并执行该指令来实现上述第一方面以及第一方面的任意一种实现方式中的方法。
22、可选地,作为一种实现方式,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行上述第一方面以及第一方面的任意一种实现方式中的方法。
23、可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行第一方面以及第一方面中的任意一种实现方式中的方法。
24、第六方面,提供了一种包含指令的计算机程序产品,当所述指令被计算设备运行时,使得所述计算设备执行如上述第一方面以及第一方面的任意一种实现方式中的方法。
25、第七方面,提供了一种包含指令的计算机程序产品,当所述指令被计算设备集群运行时,使得所述计算设备集群执行执行如上述第一方面以及第一方面的任意一种实现方式中的方法。
26、第八方面,提供了一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备执行时,所述计算设备执行如上述第一方面以及第一方面的任意一种实现方式中的方法。
27、作为示例,这些计算机可读存储包括但不限于如下的一个或者多个:本文档来自技高网...
【技术保护点】
1.一种脏数据的检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获得用户确认的脏数据集合,所述脏数据集合中包括至少一个脏数据,包括:
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述待检测的业务数据为一张表上的业务数据,或多张表上的业务数据。
8.一种脏数据的检测装置,其特征在于,包括:
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
10.根据权利要求9所述的装置,其特征在于,
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述装置还包括分离模块,
12.根据权利要求11所述的装置,其特征在于,所述获取模块具体用于:
14.根据权利要求8至13中任一项所述的装置,其特征在于,所述待检测的业务数据为一张表上的业务数据,或多张表上的业务数据。
15.一种计算设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的指令,以使得所述计算设备执行如权利要求1至7中任一项所述的方法。
16.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;
17.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备运行时,使得所述计算设备执行如权利要求的1至7中任一项所述的方法。
18.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备集群运行时,使得所述计算设备集群执行如权利要求的1至7中任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备执行时,所述计算设备执行如权利要求1至7中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行如权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种脏数据的检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获得用户确认的脏数据集合,所述脏数据集合中包括至少一个脏数据,包括:
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述待检测的业务数据为一张表上的业务数据,或多张表上的业务数据。
8.一种脏数据的检测装置,其特征在于,包括:
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
10.根据权利要求9所述的装置,其特征在于,
11.根据权利要求8至10中任一项所述的装置,其特征在于,所述装置还包括分离模块,
12.根据权利要求11所述的装置,其特征在于,所述获取模块具体用于:
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述装...
【专利技术属性】
技术研发人员:郝诗源,魏子恒,任宝占,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。