当前位置: 首页 > 专利查询>河海大学专利>正文

基于Parallel_ModCTANE的一致性检测模型构建方法技术

技术编号:33403983 阅读:12 留言:0更新日期:2022-05-11 23:26
本发明专利技术公开一种基于Parallel_ModCTANE的一致性检测模型构建方法,包括对CTANE算法进行改进;对水文数据进行分布式并行条件函数依赖挖掘;对条件函数依赖集进行过滤;对水文数据进行基于主数据的联表不一致性检测,得到水文数据的不一致性检测结果。本发明专利技术对数据进行初步清洗后,结合Parallel_ModCTANE方法进行分布式并行条件函数依赖挖掘,使得条件函数依赖挖掘的效率更高,使用基于主数据的联表不一致性检测算法进行一致性检测,使得检测的效率更高。更高。更高。

【技术实现步骤摘要】
基于Parallel_ModCTANE的一致性检测模型构建方法


[0001]本专利技术属于数据质量控制
,具体涉及一种基于Parallel_ModCTANE的一致性检测模型构建方法。

技术介绍

[0002]大数据是一种大规模的数据集合,在存储和管理分析中远远超过传统软件,以至于无法使用现有的数据库管理系统进行数据的存储、搜索、分析等操作,而必须通过数十台、数百台,甚至更大规模的服务器集群进行并行处理。大数据的核心价值在于存储和分析海量数据;因此大数据相关技术的战略意义不在于掌握大量数据信息,而在于专业处理有意义的数据。
[0003]在分布式水文大数据背景下,如果数据存在不一致性的情况,如何在测站节点、流域节点、省级节点的数据之间找出数据中隐含的条件函数依赖,来进行一致性检测能大大增加一致性检测的准确度。单个数据节点下,进行条件函数依赖挖掘的结果可能是局限的,仅仅在单个数据节点上起作用,在进行数据交换后,对于其他节点来说,这些条件函数依赖可能没有意义,这样将会大大降低水情业务数据一致性检测的准确度。本专利技术主要针对分布式水文大数据的一致性问题展开相关的研究,主要从大数据下的条件函数依赖挖掘和不一致性检测两个方面着手通过对大数据一致性问题的研究,从中找出违反函数依赖的数据和约束规则,为大数据的修复提供依据,也为水情业务的数据一致性提供理论支撑。

技术实现思路

[0004]专利技术目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种基于Parallel_ModCTANE的一致性检测模型构建方法,通过数据挖掘以及数据质量控制的相关技术,对水情业务数据进行一致性检测。
[0005]技术方案:本专利技术的一种基于Parallel_ModCTANE的一致性检测模型构建方法,包括以下步骤:
[0006]步骤S1、在模型中确定分布式节点个数、支持度、水文数据等参数,使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;
[0007]步骤S2、将步骤S1挖掘得到的候选条件函数依赖集以及经过专家经验得出的条件函数依赖集进行合并,进行条件函数依赖过滤;
[0008]步骤S3、根据步骤S2过滤得到的符合水情业务一致性检测需求的条件函数依赖集转换成对应的SQL语句;
[0009]步骤S4、使用基于主数据的联表不一致性检测算法LTMD分别进行单条件函数依赖检测以及多条件函数依赖检测。
[0010]进一步,所述步骤S1中根据水文数据属性进行候选CFDs分组,并根据分布式节点个数进行大数据水平切分,然后使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;
[0011]其中,进行分布式并行条件函数依赖挖掘的具体步骤为:
[0012]步骤S1.1、确定候选条件函数依赖分组的公共属性;
[0013]步骤S1.2、对各个数据节点中的数据通过散列函数切分成n份,n为分布式子节点个数;
[0014]步骤S1.3、将切分之后的数据按照步骤S1.2后每一个元组切片中的元组的散列值进行重分布;
[0015]步骤S1.4、逐层生成左方集中包含公共属性的候选条件函数依赖;
[0016]步骤S1.5、使用Parallel_ModCTANE算法的剪枝原理对条件函数依赖挖掘的搜索空间进行剪枝。
[0017]进一步,所述步骤S2的详细内容为:
[0018]步骤S2中需要对S1步骤挖掘获得的条件函数依赖集使用基于知识过滤的FA_CFD_KF算法进行条件函数依赖过滤,主要以下实现步骤:
[0019]步骤S2.1、将步骤S1挖掘得到的条件函数依赖集同经过专家经验总结的条件函数依赖集进行合并;
[0020]步骤S2.2、基于业务需求涉及的属性集过滤出候选条件函数依赖集;
[0021]步骤S2.3、基于知识过滤的原理对候选条件函数依赖集进行过滤,过滤出违反最小非平凡原则的CFDs;
[0022]步骤S2.4、基于知识过滤的原理对候选条件函数依赖集进行过滤,过滤出重复的CFDs。
[0023]进一步,所述步骤S3的详细内容为:
[0024]步骤S3中将步骤S2过滤得到的条件函数依赖集转换为SQL检测语句,包括如下步骤:
[0025]将单条CFD转换为SQL检测语句需要两个步骤:
[0026]首先检测CFDs的右方集,需要在左方集的属性值匹配的情况下搜索是否存在右方集属性不符合的元组,如果存在那么一致性检测不通过;
[0027]其次需要进行多层检测,先对左方集的属性以及右方集的属性值进行值域的筛选,再通过group by语句对左方集的取值进行分组,通过distinct语句计算出左方集属性指向的右方集的属性值是否只有一个。
[0028]与单条件函数依赖不同,组合后的多条件函数依赖中存在无关属性,导致原来的SQL查询语句时无法准确查询出一致性错误,需要在SQL语句中使用case关键词,对无关属性先做一步筛选工作,再进行查询语句的执行。
[0029]进一步,所述步骤S4中使用LTMD算法进行基于主数据的联表不一致性检测的详细内容为:
[0030]步骤S4中使用LTMD算法进行基于主数据的联表不一致性检测,包括如下步骤:
[0031]步骤S4.1、根据具体的业务需求获取检测所需的条件函数依赖集;
[0032]步骤S4.2、传入主表数据并选取进行联表检测所需要的辅助表;
[0033]步骤S4.3、根据辅表对主表进行完整性检测;
[0034]步骤S4.4、使用LTMD算法进行基于主数据的联表不一致性检测。
[0035]有益效果:与现有技术相比,本专利技术具有以下优点。
[0036](1)本专利技术对传统的CTANE算法进行了优化,提出了分布式大数据环境下的条件函数依赖挖掘算法Parallel_ModCTANE算法,可以分布式并行挖掘条件函数依赖,大大提升了挖掘的效率。
[0037](2)本专利技术将知识过滤的原理运用到条件函数依赖中来,可以筛选出最符合业务需求的条件函数依赖,大大提高了一致性检测的效率。
[0038](3)本专利技术提出了基于主数据的联表不一致检测算法LTMD,可以将不一致性检测的粒度细化到属性,提高了数据质核的准确率以及数据校核的效率。
附图说明
[0039]图1为本专利技术的整体结构示意图。
[0040]图2为本专利技术中实施例中不同节点个数时,三种算法的运行时间对比图。
[0041]图3为本专利技术中实施例中分布式并行挖掘对CFD挖掘个数的影响对比图。
[0042]图4为本专利技术中条件函数依赖挖掘模块的散列函数切分数据元组示意图。
[0043]图5为本专利技术的联表不一致性检测流程图。
具体实施方式
[0044]下面对本专利技术技术方案进行详细说明,但是本专利技术的保护范围不局限于所述实施例。
[0045]如图1所示,本实施例的一种基于Parallel_Mo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:包括以下步骤:步骤S1、在模型中确定分布式节点个数、支持度、水文数据等参数,使用ParalleL_ModCTANE算法进行分布式并行条件函数依赖(Conditional Functional Dependencies,CFDs)挖掘;步骤S2、将步骤S1挖掘得到的候选条件函数依赖集以及经过专家经验得出的条件函数依赖集进行合并,进行条件函数依赖过滤;步骤S3、根据步骤S2过滤得到的符合水情业务一致性检测需求的条件函数依赖集转换成对应的SQL语句;步骤S4、使用基于主数据的联表不一致性检测算法LTMD(Inconsistencies Detection Algorithm for Linked Tables based on Master Data)分别进行单条件函数依赖检测以及多条件函数依赖检测。2.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S1中根据水文数据属性进行候选CFDs分组,并根据分布式节点个数进行大数据水平切分,然后使用Parallel_ModCTANE算法进行分布式并行条件函数依赖挖掘;其中,进行分布式并行条件函数依赖挖掘的具体步骤为:步骤S1.1、确定候选条件函数依赖分组的公共属性;步骤S1.2、对各个数据节点中的数据通过散列函数切分成n份,n为分布式子节点个数;步骤S1.3、将切分之后的数据按照步骤S1.2后每一个元组切片中的元组的散列值进行重分布;步骤S1.4、逐层生成左方集中包含公共属性的候选条件函数依赖;步骤S1.5、使用Parallel_ModCTANE算法的剪枝原理对条件函数依赖挖掘的搜索空间进行剪枝。3.根据权利要求1所述的基于Parallel_ModCTANE的一致性检测模型构建方法,其特征在于:所述步骤S2中需要对S1步骤挖掘获得的条件函数依赖集使用基于知识过滤的FA_CFD_KF算法(Filtering Al...

【专利技术属性】
技术研发人员:王潇凯万定生余宇峰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1