当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

用于管理含有具有缺失值的记录的数据库的方法和系统技术方案

技术编号:11307868 阅读:73 留言:0更新日期:2015-04-16 03:31
提供一种方法,所述方法包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后记录包括具有与目标记录中的缺失值相同字段的值的记录,基于与划分后记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测值。

【技术实现步骤摘要】
【专利摘要】提供一种方法,所述方法包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后记录包括具有与目标记录中的缺失值相同字段的值的记录,基于与划分后记录相关联的所述至少两个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测值。【专利说明】用于管理含有具有缺失值的记录的数据库的方法和系统
实施例涉及管理含有具有缺失值(missing value)的记录的数据库。更具体地, 实施例涉及输入用于记录中的缺失值的值。
技术介绍
在数据库(或其他数据存储,例如XML文件)的任一数据集(例如,数据表或查询 结果)中,存在含有具有缺失值的记录(或记录集)的条目的可能性。例如,因为在数据收 集的时间该值未知,所以收集的数据可以是缺失值。例如,在基于数据的分析或研究中,缺 失数据影响数据的质量。 作为一个例子,个人健康记录(PHR)数据库在促进医学和灾害研究中扮演重要角 色,并且提供用于个人保健的分析服务。例如,PHR可以根据来自数据库的历史数据来提供 个人的健康分析。在各种类型的健康促进机构中,历史数据可以为顾问和指导员提供支持。 此外,可以通过PHR分析来安排和提醒通过健身巡回医疗带来的健康养护周期。此外,数据 可用于创建用于推荐最佳健身计划或健康每日菜单的预测模型。通常,可以基于三个主要 的方法来收集PHR数据:来自个人体重计的每日健康记录,来自健身中心的顾客记录以及 来自大学和研究中心的统计数据库。然而,缺失值发生在PHR数据库中,在收集用于所有人 的完整数据方面可能存在一些困难。 在传统的缺失值估算(imputation)方法中,具有缺失值的选定记录可以表示为全 部其他相似记录的线性组合。换句话说,这些算法将数据集中的局部相似结构用于缺失值 估算。典型地,与包含缺失值的记录呈现高度相关的记录的子集被用于估算缺失值。大部 分方法还假定,彼此独立地考虑全部记录的特征,其大部分已经应用在微阵列数据分析中。 然而,在一些数据库(或数据集)中,一些数据特性可能线性互相关,并且数据可 以基于该关系被分类。例如,可以通过PHR数据的特征将它们分类成为两个组。一组可以 是度量数据,诸如身高、体重、验血结果;另一组可以从诸如疲劳、食欲之类的调查表生成并 量化。因此,特征的类型可以不同地影响所述线性组合。当估算数据库中的缺失值时传统 的缺失值估算方法不考虑互相关数据。因此,当估算数据库中的缺失值时存在对利用互相 关数据的方法和系统的需要。
技术实现思路
-个实施例包括一种方法。所述方法包括:从数据集中选择包括缺失值的目标 记录;将数据集的记录划分成为包括互相关数据的至少两个组,所述划分后的记录包括具 有与目标记录中的缺失值相同字段的值的记录,基于与划分后的记录相关联的所述至少两 个组中的每一个中的字段之间的关系预测缺失值,以及将目标记录的缺失值设置为该预测 值。 另一实施例包括一种具有存储在其上的计算机可执行程序码的非瞬时计算机可 读存储介质,当在计算机系统上运行该计算机可执行程序码时使得计算机系统执行如下步 骤。所述步骤包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包 括互相关数据的至少两个组,所述划分后的记录包括具有与目标记录中的缺失值相同字段 的值的记录,基于与划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关 系预测缺失值,以及将目标记录的缺失值设置为该预测值。 还一实施例包括一种装置。所述装置包括:值预测模块,被配置成从数据集中选择 包括缺失值的目标记录;并且被配置成将该目标记录的缺失值设置为预测值。所述装置包 括:模型生成模块,被配置成将数据集的记录划分成为包括互相关数据的至少两个组,所述 划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录;并且被配置成基于与 划分后的记录相关联的所述至少两个组中的每一个中的字段之间的关系来预测缺失值。 【专利附图】【附图说明】 从此处以下给出的详细说明和附图中将更全面地理解示例实施例,其中通过相似 的参考标号表示相似的元件,仅仅通过例示的方式给出详细说明和附图,并且因此不限制 示例实施例,并且其中: 图1示出根据至少一个示例实施例的方法。 图2示出根据至少一个示例实施例的系统的框图。 图3示出根据至少一个示例实施例的数据存储的框图。 图4示出根据至少一个示例实施例的用于生成模型的框图。 图5示出根据至少一个示例实施例的数据集。 图6示出根据至少一个示例实施例的另一数据集。 图7示出根据至少一个示例实施例的、在生成模型中使用的输入/输出的框图。 图8示出根据至少一个示例实施例的一维的双局部线性模型的图。 图9示出根据至少一个示例实施例的另一方法。 应该注意到,这些附图是用来示出在特定示例实施例中使用的方法和/或结构的 一般特性并且用于对下面提供的书面描述进行补充。然而,这些附图不是按比例的并且可 能不精确地反映任一给出实施例的精确的结构或性能特征,并且将不会解释为定义或限制 由示例实施例包含的数值范围或性质。例如,为了清楚,可以缩小或放大结构元件的布置。 在多个附图中的相似或相同的参考数字的使用是用来指示相似或相同的元件或特征的存 在。 【具体实施方式】 尽管示例实施例可以包括不同的修改和替换形式,但在附图中以举例的方式示出 了示例实施例,并且将在此处详细描述示例实施例。然而,应当理解,并非意图将示例实施 例局限于公开的具体形式,而是相反地,示例实施例应覆盖落入示例实施例范围内的所有 修改、等效物以及替换物。遍及附图的描述,相似的附图标记始终指代相似的元件。 示例实施例描述利用两种类型的互相关数据构造和内插两个局部线性子模型的 双局部线性模型。例如,第一类型的互相关数据可以基于定量(例如,度量)的数据而第二 类型的互相关数据可以基于定性的(或主观的)数据。在PHR数据库的示例实现中,分别 地,第一类型(或定量)的互相关数据可以是重要数据而第二类型(或定性的)互相关数 据可以是调查表数据。因此,和传统的估算方法形成对比,不只利用局部相似信息,而且考 虑数据特征之间的相关。 图1示出根据至少一个示例实施例的方法。关于图1描述的方法步骤可以作为存 储在与系统(例如,如图2中所示的)相关联的存储器(例如,如下所述的至少一个存储器 210)中的软件码来运行并且由与系统相关联的至少一个处理器(例如,如下所述的至少一 个处理器205)运行。然而,预期存在替换实施例,诸如具体实现为专用处理器的系统。 例如,可以通过专用集成电路或ASIC来执行方法步骤。例如,ASIC可以被配置为 一个或多个块、或者块的元素、(例如,下面描述的值预测模块225)和/或系统200。虽然 如下所述的步骤被描述为由处理器运行,但是步骤不一定由相同的处理器运行。换句话说, 至少一个处理器可以运行下面与图1相关描述的步骤。 如图1中所示,在步骤S105中处理器(例如,至少一个处理器205)选择具有缺失 值的目标记录。例如,处理器可以过滤数据集以包括具有缺失值的记录。在一些示例实现本文档来自技高网
...

【技术保护点】
一种方法,包括:从数据集中选择包括缺失值的目标记录;将数据集的记录划分成为包括互相关数据的至少两组,划分后的记录包括具有与目标记录中的缺失值相同字段的值的记录;基于与划分后记录相关联的至少两个组中的每一个中的字段之间的关系来预测缺失值;以及将目标记录的缺失值设置为预测值。

【技术特征摘要】

【专利技术属性】
技术研发人员:黎文宪程羽
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1