一种基于否定约束的错误数据检测方法及系统技术方案

技术编号:40675135 阅读:20 留言:0更新日期:2024-03-18 19:12
一种基于否定约束的错误数据检测方法及系统,涉及计算机数据清洗技术领域,针对现有技术中利用否定约束进行错误数据检测存在效率低的问题,本申请利用矩阵的思维保存证据集,用0和1表示是否满足谓词,减少了使用字符串时的重复匹配操作与冗余路径的搜索,在不降低错误数据检测精度的情况下大幅提高了错误数据检测的速度,同时没有降低对错误数据的检测精度。

【技术实现步骤摘要】

本专利技术涉及计算机数据清洗,具体为一种基于否定约束的错误数据检测方法及系统


技术介绍

1、在信息时代,随着生产生活中数据量的不断增大,错误数据也变得越来越多,造成的影响也在不断增大。因此,错误数据的检测是一项亟待解决的工作。在错误数据检测时,主要检测手法有三种,分别是基于数据质量规则的错误数据检测、基于知识库的错误数据检测与人机协作的错误数据检测。其中,基于数据质量规则的错误数据检测可以在不利用外部资源的情况下完成对数据的检测工作。

2、以目前比较先进的数据质量规则-否定约束为例。在数据质量规则中,谓词表示一个约束条件,例如"t1.工资<t2.工资",表示元组1的工资小于元组2的工资。一个否定约束由多个谓词组成,例如便是由两个谓词构成的否定约束。当元组对满足一个否定约束中的全部谓词,说明该元组对当中不满足约束,可能包含错误数据,否则认为其满足约束。假如每个元组表示一个员工的信息,上述否定约束说明,如果一个员工的工资比另一个员工低,同时缴税比另一个员工高,说明这两个员工的信息当中包含错误。

3、利用否定约束的错误数据检测步骤本文档来自技高网...

【技术保护点】

1.一种基于否定约束的错误数据检测方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于否定约束的错误数据检测方法,其特征在于所述采样处理包括随机采样、分层采样、聚类采样或反馈控制采样进行。

3.根据权利要求2所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤三中利用样本数据集Dsmp和谓词空间P构造证据矩阵的具体步骤为:

4.根据权利要求3所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤四的具体步骤为:

5.根据权利要求3所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤四的具体步骤为:

<...

【技术特征摘要】

1.一种基于否定约束的错误数据检测方法,其特征在于包括以下步骤:

2.根据权利要求1所述的一种基于否定约束的错误数据检测方法,其特征在于所述采样处理包括随机采样、分层采样、聚类采样或反馈控制采样进行。

3.根据权利要求2所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤三中利用样本数据集dsmp和谓词空间p构造证据矩阵的具体步骤为:

4.根据权利要求3所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤四的具体步骤为:

5.根据权利要求3所述的一种基于否定约束的错误数据检测方法,其特征在于所述步骤四的具体步骤为:

6.一种基于否定约束的错误数据检测系统,其特征...

【专利技术属性】
技术研发人员:丁小欧周牧云王宏志张岩
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1