【技术实现步骤摘要】
一种源数据质量的检测方法、装置及可读存储介质
[0001]本申请涉及数据处理
,尤其涉及一种源数据质量的检测方法、装置及可读存储介质。
技术介绍
[0002]伴随着信息科技网络的发展,人们在工作生活中产生的数据剧增,与此同时,脏数据种类、数量的增长也是可观的,这对数据治理带来较大挑战。目前,针对脏数据的处理主要通过,将源端数据直接输入模型,得到源端数据中脏数据的情况;这种方法在面对大量源端数据时,往往占据过长的冗余时间,并且结果过于粗略。
[0003]由此可见,现有技术中存在脏数据检测准确性低的问题。
技术实现思路
[0004]本发申请提供了一种源数据质量的检测方法,用以解决现有技术中脏数据检测准确性低的问题。
[0005]第一方面,本申请提供一种源数据质量的检测方法,所述方法包括:
[0006]针对源数据进行结构化处理,得到关系型数据;
[0007]根据设置规则,针对所有所述关系型数据进行分类,得到分类数据;
[0008]根据数据量规则,随机提取所述分类数据中的 ...
【技术保护点】
【技术特征摘要】
1.一种源数据质量的检测方法,其特征在于,所述方法包括:针对源数据进行结构化处理,得到关系型数据;根据设置规则,针对所有所述关系型数据进行分类,得到分类数据;根据数据量规则,随机提取所述分类数据中的任一类数据得到第一数据,并将所述第一数据与脏数据训练集匹配,得到包含所述第一数据中脏数据的第一脏数据集;其中,所述数据量规则包括从所述分类数据中提取的数据量要求,以及数据匹配算法;根据所述第一脏数据集在所述源数据中所占的比例确定所述源数据的质量;其中,所述脏数据比例越大,所述源数据质量越低。2.如权利要求1所述的方法,其特征在于,所述根据所述第一脏数据集在所述源数据中所占的比例确定所述源数据的质量,包括:确定所述第一脏数据集中任一脏数据在所述源数据中的数量;将第一脏数据集中所有脏数据在所述源数据中的数量相加,得到所述源数据的脏数据量;基于所述源数据的脏数据量与所述源数据的数据量之比,确定所述源数据中的脏数据比例;基于所述比例确定所述源数据的质量。3.如权利要求2所述的方法,其特征在于,所述根据设置规则,针对所有所述关系型数据进行分类,得到分类数据,包括:确定所有所述关系型数据的数据属性,将相同数据属性的所述关系型数据分别划分为同一类数据,得到分类数据。4.如权利要求2所述的方法,其特征在于,所述设置规则为根据数据名以及所述数据属性分类;则所述根据设置规则,针对所有所述关系型数据进行分类,得到分类数据,包括:确定所述关系型数据对应的数据名;其中,所述数据名指示所述关系型数据的行业、主题;基于所述数据名,将所述关系型数据中各行业的数据划分为一类,得到行业数据;将每一类所述行业数据中各主题的数据划分为一类,得到主题数据;确定所有所述主题数据的所述数据属性,将相同数据属性的所述主题数据划分为同一类数据,得到分类数据。5.如权利要求1~4中任一项所述的方法,其特征在于,所述根据数据量规则,随机提取所述分类数据中的任一类数据得到第一数据,并将所述第一数据与脏数据训练集匹配,得到包含所述第一数据中脏数据的第一脏数据集,包括:从所述分类数据中确定数据量超过所述数据量规则中所规定的第一数据量的第一分类数据,并在所述第一分类数据中提取数据量为第一数据量的第一数据;基于所述匹配算法,将所述第一数据与所述对应的脏数据训练集匹配,得到第一脏数据集。6.如权利要求5所述的方法,其特征在于,所述得到第一脏数据集之后,包括:检查是否有新的脏数据类型,若是,则从第一正常数据中提取与所述新的脏数据类型对应的第二脏数据集;其中,所述第一正常数据指示所述第一数据中除所述第一脏数据集以外的数据;
将第二脏数据集与所述第一脏...
【专利技术属性】
技术研发人员:王元元,周明伟,陈立力,吕晓,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。