【技术实现步骤摘要】
一种基于多轮采样的数据筛查规则验证方法及其装置
[0001]本申请涉及数据处理领域,特别是一种基于多轮采样的数据筛查规则验证方法及其装置。
技术介绍
[0002]在关系数据中进行规则发现是一个费时费力的过程。在大数据的今天,数据规模更是以倍速在不断增长,这为规则挖掘带来了前所未有的挑战。使用现有的算法进行规则挖掘,可能会花费用户几天甚至几个星期的时间,这样的耗时远远达不到许多场景的使用要求。
[0003]现有的采样技术通常是在单表上的均匀采样(Uniform Sampling)。采样之后,再在采样数据上进行单机的规则挖掘。
[0004]均匀采样技术主要由以下几个缺点:(1)均匀采样主要在单表规则上进行,均匀采样的效果大大降低;(2)现有的均匀采样基本上是单轮采样,然而单轮采样可能造成规则的大量损失,因此规则的召回率很低;(3)均匀采样不区分数据是否有用,所有数据一视同仁,这样的方法是不科学的,一些能用于规则发现的有用数据应该以更高优先级被采样;(4)现有的均匀采样基本上是启发式的方法,不能保证采样的准确性;而 ...
【技术保护点】
【技术特征摘要】
1.一种基于多轮采样的数据筛查规则验证方法,用于对大数据库内的目标数据进行数据筛查确定数据筛查规则,其特征在于,包括:获取所述目标数据,并依据所述目标数据确定对应的数据关系表格,其中,所述数据关系表格中的每一行生成一元组,且至少包括一个元组;依据所述元组构建关系图G,其中,所述关系图G包括顶点集合V和边集合E;对所述顶点集合V中的顶点进行K次采样生成K个采样数据;对K个所述采样数据进行逐层搜索构建整体同步并行计算模型,其中,所述整体同步并行计算模型包括一调度结点和若干个工作结点;依据所述调度结点和若干个所述工作结点对K个所述采样数据进行数据筛查生成目标数据筛查规则。2.根据权利要求1所述的方法,其特征在于,所述依据所述元组构建关系图G,其中,所述关系图G包括顶点集合V和边集合E的步骤,包括:依据所述元组生成若干个顶点;若干个所述顶点之间相连生成若干条边;依据若干个所述顶点构建和若干条所述边构建边集合E;其中,当所述边集合E中的一条边e分别连接所述顶点集合v中的一顶点t和另一顶点s时,对应于所述顶点t和所述顶点s构建的元组对至少满足一等式谓词;依据所述顶点集合V和所述边集合E构建所述关系图G。3.根据权利要求1所述的方法,其特征在于,所述对所述顶点集合V中的顶点进行K次采样生成K个采样数据的步骤,包括:对所述顶点集合V中的顶点进行K次随机游走采样生成K个采样数据;或,对所述顶点集合V中的顶点进行K次广度优先采样生成K个采样数据。4.根据权利要求3所述的方法,其特征在于,所述对所述顶点集合V中的顶点进行K次随机游走采样生成K个采样数据的步骤,包括:在所述顶点集合V内通过均匀采样获取一初始顶点;依据所述随机游走采样对所述初始顶点进行迭代采样生成若干个采样元组,其中,所述随机游走采样中的每一步以预设概率∈停止或移动至当前顶点的相邻顶点,所述迭代采样的迭代过程小于或等于预设样本量;依据若干个所述采样元组生成所述K个采样数据。5.根据权利要求3所述的方法,其特征在于,所述对所述顶点集合V中的顶点进行K次广度优先采样生成K个采样数据的步骤,包括:在所述所述顶点集合V内通过均匀采样获取一初始元组对,所述初始元组对包括顶点z和顶点y;依据所述广度优先采样对所述初始元组对进行迭代采样生成若干个相邻顶点,其中,所述相邻顶点的目标距离小于或等于所述顶点z至所述顶点y之间的预设距离;依据若干个所述相邻顶点生成所述K个采样数据。6.根据权利要求1所述的方法,其特征在于,所述依据所述调度结点和若干个所述工作结点对K个所述采样数据进行数据筛查生成目标数据筛查规则的步骤,包括:所述调度结...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。