数据处理方法、软件和数据处理系统技术方案

技术编号:2824951 阅读:184 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种数据处理方法、软件和数据处理系统。数据处理包括将来自数据源的数据归档,其包括从数据源读取数据,在读取数据时计算用以描述数据特性的概述数据,以及存储基于概述数据的归档信息。然后,处理来自数据源的数据。此处理包括访问所存储的归档信息和根据访问到的归档信息处理数据。该数据处理方法包括如下步骤:识别数据源的数据记录字段的多个子集;确定多个子集中每个子集的同现统计数字;以及识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。

【技术实现步骤摘要】
本申请是申请日为2004年9月15、申请号为200480026429.2、专利技术名称为“数据归档”的专利技术专利申请的分案申请。相关申请的参照本申请要求2003年9月15日提交的No.60/502,908、2003年10月20递交的No.60/513,038以及2003年12月22日递交的No.60/532,956的美国临时申请的权益。上述引用的申请通过参考援引在此。
本专利技术涉及数据归档(profiling)。
技术介绍
存储的数据集经常包括事先未知各种特性的数据。例如,数据集的值或一般值的范围,在数据集内不同字段之间的关系,或在不同字段中的值之间的函数依赖性可能是未知的。数据归档会涉及到检查数据集的源,以确定这些特性。数据归档系统的用途之一是收集有关数据集的信息,然后该信息用于设计集结区(staging area),以便在进一步处理之前装载数据集。然后,基于在数据归档过程中收集的信息,在集结区中进行将数据集映射到希望的目标格式和位置所需的转换。这种转换可能是必要的,例如,使第三方数据与已有数据存储器兼容,或者将数据从原来的计算机系统转移到新的计算机系统。
技术实现思路
一般而言,在一个方案中,本专利技术的特征是方法、对应的软件以及数据处理系统。将来自数据源的数据归档。此归档包括从数据源读取数据,在读取数据时计算用以描述数据特性的概述数据,以及存储基于概述数据的归档信息。然后,处理来自数据源的数据。此处理包括访问所存储的归档信息和-->根据访问的归档信息处理数据。一般而言,在另一个方案中,本专利技术的特征是数据处理方法。将来自数据源的数据归档。此归档包括从数据源读取数据,在读取数据时计算用以描述数据特性的概述数据,以及存储基于概述数据的归档信息。数据归档包括以并行方式归档数据,这包括将数据分割成多个部分,并使用第一组并行组件中分开的一些组件处理这些部分。本专利技术的方案可以包括一个或多个以下特征。对来自数据源的数据的处理包括从数据源读取数据。在进行数据归档时,不保留数据源外的数据的副本。例如,数据可包括具有可变记录结构(例如条件字段和可变数目的字段)的记录。在读取数据时对概述数据的计算包括在计算用以描述数据特性的概述数据时对可变记录结构记录作出解释。数据源包括数据存储系统,例如数据库系统、或串行或并行文件系统。对概述数据的计算包括对字段的一组相异值中的每个值的出现次数进行计数。归档信息可以包括基于对所述字段计算的出现次数得到的该字段的统计数字。对包含与数据源相关的元数据的元数据存储器进行维护。对归档信息的存储可包括更新与数据源相关的元数据。对数据的归档和对数据的处理均可以利用数据源的元数据。对来自数据源的数据的归档还包括基于归档信息确定格式规范。也可包括基于归档信息确定有效性规范。在数据处理期间,可以基于格式规范和/或有效性规范识别无效记录。基于归档信息指定数据转换指令。然后,对数据的处理可以包括将转换指令应用于数据。对数据的处理包括将数据输入到数据存储子系统。在将数据输入数据存储子系统之前,可以将数据进行验证。这种数据验证可以包括例如通过比较数据的统计属性将数据的特性与数据的基准特性相比较。对数据的归档可以以并行方式进行。这可以包括将数据分割成多个部分,并使用第一组并行组件中分开的一些组件处理这些部分。对不同数据字段的概述数据的计算可以包括使用第二组并行组件中分开的一些组件。第一-->组并行组件的输出可以被重新分割,以形成第二组并行组件的输入。数据可以从并行数据源读取,该并行的数据源的每个部分由第一组并行组件中不同的一个并行组件处理。一般而言,在另一个方案中,本专利技术的特征是方法、对应的软件以及数据处理系统。接受用以描述第一数据源的记录中第一字段的值的特性的信息和用以描述第二数据源的记录中第二字段的值的特性的信息。然后,基于所接受的信息,计算用以描述第一字段与第二字段之间的关系的特性的参量。呈现与第一字段和第二字段有关的信息。本专利技术的方案可以包括一个或多个以下特征。将与第一字段和第二字段有关的信息呈现给用户。第一数据源和第二数据源可以是同一个数据源,或者是分开的数据源。所述数据源中的任一个或两个都可以是数据库表格或文件。用以描述该关系的特性的参量包括描述第一字段的值与第二字段的值的汇合特性的参量。用以描述第一字段的值(或类似的第二字段的值)的特性的信息包括描述该字段的值的分布特性的信息。此信息可以存储在数据结构,例如“调查”数据结构中。用以描述第一字段的值的分布特性的信息可以包括多个数据记录,每个数据记录与第一数据源的第一字段中不同的值以及该值的对应出现次数相关联。类似地,用以描述第二字段的值的分布特性的信息可以包括相同或类似格式的多个记录。处理用以描述第一字段的值和第二字段的值的分布特性的信息,以计算与这些多个不同同现(cooccurrence)类别的值相关的参量。与多种同现类别的值相关的参量包括多个数据记录,每个数据记录与多个同现类别之一相关联,并包括第一和第二字段在所述类别中的不同值的数量。分别在第一字段和第二字段上,计算描述在第一数据源与第二数据源的“汇合”数据源中的值的分布特性的信息。此计算可以包括:计算与多种同现类别的值相关的参量。这些类别的范例包括:在第一字段和第二字段的一个中至少出现一次但在另一个字段中不出现的值,在第一字段和第二字段的每个中恰好出现一次的值,在第一字段和第二字段的一个中恰好出现一次、-->而在另一个字段中出现超过一次的值,以及在第一字段和第二字段的每个中出现超过一次的值。对于不同的多对字段,例如来自第一数据源的一个字段和来自第二数据源的另一个字段,重复下述两个步骤,即接受用以描述值的特性的信息以及计算描述值的汇合特性的参量。然后,与多对字段中的一对或更多对字段有关的信息可以呈现给用户。与多对字段中的一对或更多对字段相关的信息的呈现包括:识别侯选类型的字段关系。这种类型的字段关系的范例包括主键(primary key)关系、外键(foreign key)关系以及通用域(common domain)关系。一般而言,在另一个方案中,本专利技术的特征是方法、对应的软件以及数据处理系统。对数据源的数据记录中字段的多个子集进行识别。确定多个子集中每个子集的同现统计数字。识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。本专利技术的方案可以包括一个或多个以下特征。字段的至少一个子集是两个字段的子集。识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的处理包括:识别多个子集中的一个或多个子集,使其具有多个可能的预定函数关系之一。对同现统计数字的确定包括:形成多个数据元素,每个数据元素识别一个数据记录中的一对字段并识别在该对字段中出现的一对值。对同现统计数字的确定包括:将数据记录分割成多个部分,这些数据记录具有第一字段和第二字段;基于在第一部分中一个或多个记录的第二字段中出现的值的分布,确定参量,其中所述一个或多个记录具有在所述一个或更多个记录的第一字段中出现的公共值;以及将该参量与基于其它部分中的记录得到的其它参量进行合并,以产生总参量。识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的处理包括:基于该总参量,识别在第一与本文档来自技高网...

【技术保护点】
一种数据处理方法,包括如下步骤:    识别数据源的数据记录字段的多个子集;    确定多个子集中每个子集的同现统计数字;以及    识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。

【技术特征摘要】
US 2003-9-15 60/502,908;US 2003-10-20 60/513,038;U1.一种数据处理方法,包括如下步骤:识别数据源的数据记录字段的多个子集;确定多个子集中每个子集的同现统计数字;以及识别多个子集中的一个或多个子集,使得在所识别的子集的字段之间具有函数关系。2.如权利要求1所述的方法,其中,字段的至少一个子集是两个字段的子集。3.如权利要求1所述的方法,其中,识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的步骤包括如下步骤:识别多个子集中的一个或多个子集,使其具有多种可能的预定函数关系之一。4.如权利要求1所述的方法,其中,确定同现统计数字的步骤包括如下步骤:形成数据元素,每个数据元素识别一个数据记录中的一对字段并识别在该对字段中出现的一对值。5.如权利要求1所述的方法,其中,确定同现统计数字的步骤包括如下步骤:将数据记录分割成多个部分,这些数据记录具有第一字段和第二字段;基于在第一部分中的一个或多个记录的第二字段中出现的值的分布,确定参量,其中,所述一个或多个记录具有在所述一个或多个记录的第一字段中出现的公共值;以及将该参量与基于其它部分中的记录得到的其它参量进行合并,以产生总参量。6.如权利要求5所述的方法,其中,识别多个子集中的一个或多个子集、使得在所识别的子集的字段之间具有函数关系的步骤包括如下步骤:基于该总参量识别在第一与第二字段之间的函数关系。7.如权利要求5所述的方法,其中,这些部分基于第一字段的值和第二字段的值获得。8.如权利要求5所述的方法,其中,使用一组并行组件...

【专利技术属性】
技术研发人员:乔尔古尔德卡尔范曼保罗贝
申请(专利权)人:AB开元软件公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1