模糊数据操作制造技术

技术编号:7154821 阅读:241 留言:0更新日期:2012-04-11 18:40
一种用于对存储在数据存储系统中的数据元素进行聚类的方法包括从数据存储系统读取数据元素。形成数据元素的聚类,其中,每一个数据元素是至少一个聚类的成员。将至少一个数据元素与两个或多个聚类相关联。该数据元素的属于所述两个或多个聚类的各自一个的成员资格由不明确性度量表示。将表示所形成的聚类的信息存储在数据存储系统中。

【技术实现步骤摘要】
【国外来华专利技术】
本描述涉及数据管理领域中的模糊数据操作
技术介绍
在数据管理中采用例如聚类(cluster)、联接(join)、搜索(search)、上卷 (rollup)和排序(sort)的数据操作来处理数据。聚类是将数据分类为不同组的操作。联接将两片数据组合在一起。通过关键字(key)的搜索找到与该关键字匹配的数据条目。上卷跨过(across) —组数据计算一个或多个层次的子和(subtotal,或者其他组合)的操作。 排序是对数据安排顺序(order)的操作。在数据管理中数据质量很重要。由数据操作导致的错误或者不准确使数据质量退化。例如,将ABC公司的雇员John Smith分类为临时工作人员或者永久工作人员使John Smith享有不同级别的福利(benefit)。对John Smith的雇佣状态的错误分类,例如数据操作聚类中的错误,影响ABC公司的人力资源数据的质量。数据操作的某些实施方案依靠字段值(“关键字(key) ”)的精确比较来标识匹配的记录、定义相关记录的组或者链接记录。当数据有不明确性(ambiguous)、不精确、不完整或者不确定时,基于字段值的精确比较的方法可能失效。当存在与例如聚类的数据操作相关联的内在(inherent)不明确性时,一种解决不明确性的方法可以是简单地忽略不明确性并强制一片数据进入特定组中。例如,ABC公司的雇员John Smith既为营销部门工作也为研发部门工作。在ABC公司的人力资源数据库中,John Smith可以与营销部门或研发部门相关联,但是经常只和一个部门相关联。将该片数据强制分类到特定组可能掩盖内在不明确性并对数据质量有不利影响。当存在与例如聚类的数据操作相关联的不确定性时,由于未决的事件结果,例如实体A和实体B之间的涉及一件资产的所有权的法律纠纷,强制一片数据进入特定组中可能并非是解决该状况的易变性的最佳方法。在判决之前,资产的所有权是不确定的。将该资产分配给A或者B结果均可能是不准确的。当存在与例如上卷的数据操作相关联的不确定性时,由于组成员资格的不明确性标识,将成员资格分配给几个替换(alternative)之中的一个组来维护(preserve)会计诚信(accounting integrity)可能给出误导性的图景(picture)。例如,出于风险评估和监管的目的,银行可能对确定其对于对手方的贷款风险感兴趣。经常通过公司名称标识对手方,由于公司名称的记录形式上的广泛可变性,会导致不明确的标识。反之,这意味着将贷款风险分配给对手方是不明确的。会发生与一个公司正确地相关联的贷款被在几个明显不同的公司之中划分,它们实际上只是这一个公司的名称的变化形式。这导致低估了银行对任一单个对手方的风险。或者,如果在替换之中做出了任意的选择,则会将风险错误地分配给一个对手方尽管该风险正确地是属于另一对手方的,从而可能高估了对第一家的风险并低估了对第二家的风险。当存在与例如联接的数据操作相关联的不确定性时,由于不正确或者丢失的信息,强制一片数据进入特定组或者忽略该片数据可能导致错误的联系或者信息损失。例如, 当试图联接来自两个不同数据库的表格时,经常不存在数据库表格共享的公共关键字。为了克服这一点,表格内的数据,例如客户地址,用于推断两个数据库中的记录之间的关系。 但是,地址信息可能不正确或者不完整。假设对照权威性的参考集合(例如邮政地址文件) 的地址有效性表明表格A中的记录上的房屋号码是无效的(不存在具有该房屋号码的房屋),而在表格B中存在可能是地址的有效替换的完整形式(alternative completion)的多个地址。任意地选择表格A中的记录中的地址的完整形式可能导致错误的联系,而忽略记录则导致信息损失。当由于错误的数据录入(entry)而存在与例如搜索的数据操作相关联的不明确性时,一种方法是提出单个替换或者替换修正的简单列表。如果这是操作者录入数据库的数据的验证过程的一部分,则当存在多个替换时单个替换可能导致操作者在接受修正时对安全性的错误感知。如果提供了替换的简单列表,则操作者可能不具有在替换中进行选择的合理根据。如果要求单个选择并且对于错误选择接受数据质量的某种退化,则使数据质量的可能损失最小并量化成为目标。
技术实现思路
一般地,在一个方面,一种用于对存储在数据存储系统中的数据元素进行聚类的方法包括从数据存储系统读取数据元素。形成数据元素的聚类,每一个数据元素是至少一个聚类的成员。将至少一个数据元素和两个或多个聚类相关联。所述数据元素的属于所述两个或多个聚类的各自一个的成员资格由多义性度量表示。将表示所形成的聚类的信息存储在数据存储系统中。多个方面可以包括下列特征中的一个或多个。表示数据元素属于所述两个或多个聚类的各自一个的成员资格的不明确性度量的每一个值可以在零和一之间。表示成员资格的不明确性度量的值可以与数据元素属于所述两个或多个聚类的各自一个的可能性相关。表示数据元素属于所述两个或多个聚类的各自一个的成员资格的不明确性度量的每一个值的和可以是一。所述方法可以包括使用不明确性度量的值保持会计诚信。通过利用不明确性度量的值对所述数量进行加权来实现对于给定数量保持会计诚信。所述方法可以包括执行使用表示成员资格的不明确性度量的值的数据操作。所述数据操作可以包括在所述一个或多个聚类的第一聚类内计算数量的加权子和的上卷,所述数量与数据元素相关联,并且通过在第一聚类内对所述数量的值和各自的不明确性度量的值的乘积求和来计算所述子和,所述数量的值与第一聚类中的每一数据相关联,所述不明确性度量的值表示第一聚类中的数据元素的成员资格。所述方法可以包括计算所述数量的排他子和和所述数量的包含子和,通过在第一聚类中排除与两个或多个聚类相关联的数据元素来计算排他子和,并且通过在第一聚类中包括与两个或多个聚类相关联的数据元素来计算包含子和。可以基于函数来建立表示成员资格的不明确性度量的值,所述函数表示所述数据元素和所述两个或多个聚类之间的关系。由所述函数表示的所述关系可以与数据元素属于所述两个或多个聚类的各自一个的可能性相关。由所述函数表示的所述关系可以基于所述数据元素和表示所述两个或多个聚类的各自一个的元素之间的量化的相似性。表示所述两个或多个聚类的各自一个的元素可以是各自聚类的关键字。在某些布置中,属于所述两个或多个聚类的每一聚类的数据元素的不明确性度量的值对于每一聚类可以相等。属于所述两个或多个聚类的每一聚类的数据元素的不明确性度量的值可以基于观察到的数据元素在基准集合中的频率。所述两个或多个聚类的每一聚类均可以表示数据元素中不同的潜在误差,并且数据元素属于所述两个或多个聚类的每一聚类的不明确性度量的值基于由每一聚类表示的数据元素中潜在误差的可能性。形成数据聚类可以包括形成数据元素的多个超聚类,并且对于每一超聚类在该超聚类内形成数据元素的聚类。形成每一超聚类可以包括基于不同数据元素中的对象之间的变体关系确定不同数据元素中对象之间的匹配。第一对象和第二对象之间的变体关系可以对应于表示第一对象和第二对象的之间的距离的函数的值低于预先确定的阈值。在某些布置中,所述变体关系可以不是等价关系。至少一个数据元素可以在多于一个超聚类中。在另一方面,一般地,一种用于对存储在本文档来自技高网
...

【技术保护点】
1.一种用于对存储在数据存储系统中的数据元素进行聚类的方法,所述方法包括:从数据存储系统(12)读取数据元素(120);形成数据元素的聚类(122),每一个数据元素是至少一个聚类的成员;将至少一个数据元素与两个或多个聚类相关联,所述数据元素的属于所述两个或多个聚类的各自一个的成员资格由不明确性度量表示;以及将表示所形成的聚类的信息存储在数据存储系统(12)中。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:阿伦安德森
申请(专利权)人:起元技术有限责任公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1