一种基于质量控制的数据填充方法及系统技术方案

技术编号:11993399 阅读:231 留言:0更新日期:2015-09-02 21:23
本申请公开了一种基于质量控制的数据填充方法,根据数据库中的已有数据确定空缺数据,构建数据库的数据依赖关系并确定数据依赖关系的依赖可信度,根据已有数据和数据依赖关系确定空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从至少一组不可推断数据中确定一组待检索数据,根据已有数据和数据依赖关系推断可推断数据并根据依赖可信度计算推断可信度,推断可信度大于预设阈值时填充可推断数据,从外部资源中检索待检索数据并根据依赖可信度计算检索可信度,检索可信度大于预设阈值时填充待检索数据。推断和检索交替执行能在较小的开销下保证较高的填充准确率,且考虑了数据依赖关系的依赖可信度能够使填充的数据的可信度较高。

【技术实现步骤摘要】

本申请设及数据库处理
,特别是设及一种基于质量控制的数据填充方法 及系统。
技术介绍
通常,在各类数据库的数据源中,往往会存在一些空缺信息,有些是因为原始数据 的缺失造成的,有些是因为操作上的失误造成的。该些数据库中的空缺信息会造成数据不 完整,是各类数据库中一个较为普遍的问题,数据填充技术的提出就是希望通过一些技术 手段来估算、预测、或者找回数据源中的空缺信息。 现有的针对字符串型数据的数据填充方法通常可分为两类;基于推理的数据填充 方法和基于检索的数据填充方法。 基于推理的数据填充方法主要是结合一些给定的数据质量规则(比如 化nctional Dependencies属性依赖关系),从数据集的其他部分推理出空缺处的空缺信 息。比如在一个地址数据集中,已知依赖关系"城市名称可W决定省份名称",在数据集其中 一个元组中写着"学校='南京大学',城市='南京',省份='江苏'",而另外一个元组写着 "学校='南航',城市='南京',省份(即第二个元组的省份为空缺信息),那么我们 就可W根据依赖关系把第二个元组中空缺的省份填写为"江苏"。 基于检索的数据填充方法主要是本文档来自技高网...

【技术保护点】
一种基于质量控制的数据填充方法,其特征在于,包括:根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据库的数据依赖关系并确定所述数据依赖关系的依赖可信度,重复执行以下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阈值时填充所述可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算检...

【技术特征摘要】

【专利技术属性】
技术研发人员:李直旭周剑杨强李洋
申请(专利权)人:苏州大学张家港工业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1