【技术实现步骤摘要】
数据治理方法、装置、设备及存储介质
[0001]本说明书涉及数据治理
,尤其是涉及一种数据治理方法、装置、设备及存储介质。
技术介绍
[0002]数据治理是指检测数据中的异常数据并对其进行修复的数据处理技术。现有的数据治理工具虽然可以自动发现异常数据,但仍需要将检测结果提交给相应人员,以由相应人员对异常数据进行人工修复。随着企业数据量的迅速增长以及业务环境的日趋复杂,传统的依靠人工修复异常数据的数据治理方式,所面临的数据治理人力成本高以及数据治理效率的问题日趋严重。
技术实现思路
[0003]本说明书实施例的目的在于提供一种数据治理方法、装置、设备及存储介质,以提高数据治理效率,降低数据治理人力成本。
[0004]为达到上述目的,一方面,本说明书实施例提供了一种数据治理方法,包括:
[0005]从包含多个数据表的数据库中识别异常数据,形成异常数据集合;
[0006]从所述异常数据集合中选择目标异常数据,并确认所述多个数据表中是否存在与所述目标异常数据对应的多个正常数据;
...
【技术保护点】
【技术特征摘要】
1.一种数据治理方法,其特征在于,包括:从包含多个数据表的数据库中识别异常数据,形成异常数据集合;从所述异常数据集合中选择目标异常数据,并确认所述多个数据表中是否存在与所述目标异常数据对应的多个正常数据;若所述多个数据表中存在与所述目标异常数据对应的多个正常数据项,且所述多个正常数据项的数据一致,则根据所述正常数据项修复所述目标异常数据;或者,若所述多个数据表中存在与所述目标异常数据对应的多个正常数据项,且所述多个正确数据项的数据不一致,则根据预设的数据优先级从所述多个正常数据项中选择基准数据项,并根据所述基准数据项修复所述目标异常数据。2.如权利要求1所述的数据治理方法,其特征在于,在修复所述目标异常数据之后,还包括:根据公式计算修复后目标异常数据对应数据表的容忍度;当所述修复后目标异常数据对应数据表的容忍度大于容忍度阈值时,对所述数据库中包含所述修复后目标异常数据的数据表进行冗余合并;其中,R
i
为第i个数据表的容忍度,p
i
为第i个数据表的权重,m为数据表中除主键和外键之外的字段个数,k为数据库中的数据表个数。3.如权利要求2所述的数据治理方法,其特征在于,在对所述数据库中包含所述修复后目标异常数据的数据表进行冗余合并之后,还包括:根据公式ω
i
=a
·
max(α
i
)+min(α
i
)+b
·
β
i
+c
·
γ
i
+d
·
δ
i
计算所述数据库中每个数据表的数据温度;当所述数据库中有数据表的数据温度低于数据温度阈值时,将该数据表识别为冷数据,并归档至冷数据存储介质中备份;其中,ω
i
为第i个数据表的数据温度,α
i
为第i个数据表内的数据记录,max(α
i
)为第i个数据表内的数据记录中的最早数据记录,min(α
i
)为第i个数据表内的数据记录中的最新数据记录,β
i
为第i个数据表最近一次被调用的调用时间与当前时间的差值,γ
i
为第i个数据表的被调用频次,δ
i
为第i个数据表的被加工频次,a、b、c和d分别为max(α
i
)、β
i
、γ
i
和δ
i
的权重。4.如权利要求1所述的数据治理方法,其特征在于,所述从包含多个数据表的数据库中...
【专利技术属性】
技术研发人员:赵洁,
申请(专利权)人:泰康在线财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。