【技术实现步骤摘要】
本申请设及数据库处理
,特别是设及一种基于质量控制的数据填充方法 及系统。
技术介绍
通常,在各类数据库的数据源中,往往会存在一些空缺信息,有些是因为原始数据 的缺失造成的,有些是因为操作上的失误造成的。该些数据库中的空缺信息会造成数据不 完整,是各类数据库中一个较为普遍的问题,数据填充技术的提出就是希望通过一些技术 手段来估算、预测、或者找回数据源中的空缺信息。 现有的针对字符串型数据的数据填充方法通常可分为两类;基于推理的数据填充 方法和基于检索的数据填充方法。 基于推理的数据填充方法主要是结合一些给定的数据质量规则(比如 化nctional Dependencies属性依赖关系),从数据集的其他部分推理出空缺处的空缺信 息。比如在一个地址数据集中,已知依赖关系"城市名称可W决定省份名称",在数据集其中 一个元组中写着"学校='南京大学',城市='南京',省份='江苏'",而另外一个元组写着 "学校='南航',城市='南京',省份(即第二个元组的省份为空缺信息),那么我们 就可W根据依赖关系把第二个元组中空缺的省份填写为"江苏"。 基于检索 ...
【技术保护点】
一种基于质量控制的数据填充方法,其特征在于,包括:根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据库的数据依赖关系并确定所述数据依赖关系的依赖可信度,重复执行以下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阈值时填充所述可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:李直旭,周剑,杨强,李洋,
申请(专利权)人:苏州大学张家港工业技术研究院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。