数据处理方法、数据处理装置及计算机可读存储介质制造方法及图纸

技术编号:8453014 阅读:194 留言:0更新日期:2013-03-21 16:34
本发明专利技术提供一种数据处理方法、计算机系统及计算机可读存储介质,所述方法包括接收记录流,每个记录包括一个或多个字段和对应值;在多个处理器之间分割所述记录流;为每个记录生成在各记录中具有值的每个字段的字段值对,所述字段值对表示各记录中的字段和用于所述字段的对应值;为每个处理器生成每个相异字段值对的调查元素,所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数;基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字;以及基于对应的统计数字为所述记录流中的每个字段生成归档。本发明专利技术可以自动确定或协同用户确定的信息可以用于转存数据源的元数据,之后用于进一步的处理。

【技术实现步骤摘要】

本专利技术涉及数据归档(profling)。
技术介绍
存储的数据集经常包括事先未知各种特性的数据。例如,数据集的值或一般值的范围,在数据集内不同字段之间的关系,或在不同字段中的值之间的函数依赖性可能是未知的。数据归档会涉及到检查数据集的源,以确定这些特性。数据归档系统的用途之一是收集有关数据集的信息,然后该信息用于设计集结区(staging area),以便在进一步处理之前装载数据集。然后,基于在数据归档过程中收集的信息,在集结区中进行将数据集映射到希望的目标格式和位置所需的转换。这种转换可能是必要的,例如,使第三方数据与已有数据存储器兼容,或者将数据从原来的计算机系统转移到新的计算机系统。
技术实现思路
一般而言,在一个方案中,本专利技术的特征是数据处理方法。接收记录流,每个记录包括一个或多个字段和对应值;在多个处理器之间分割所述记录流;为每个记录生成在各记录中具有值的每个字段的字段值对,所述字段值对表示各记录中的字段和用于所述字段的对应值;为每个处理器生成每个相异字段值对的调查元素,所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数;基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字;以及基于对应的统计数字为所述记录流中的每个字段生成归档。本专利技术的方案可以包括一个或多个以下特征。生成在每个记录中具有值的每个字段的所述字段值对的步骤包括确定记录中的特定字段是否为条件字段;以及响应于确定所述特定字段为条件字段,确定所述特定字段是否具有值。记录流的至少一个记录包括可变数目的字段。基于所述统计数字确定格式规范。为至少一个字段计算直方图或十分位数统计数字。基于所述记录的顺序特性计算用于所述记录流的序列统计数字。一般而言,在另一个方案中,本专利技术的特征是数据处理装置。该数据处理装置包括接收模块,用于接收记录流,每个记录包括一个或多个字段和对应值;分割模块,用于在多个处理器之间分割所述记录流;字段值对生成模块,用于为每个记录生成在各记录中具有值的每个字段的字段值对,所述字段值对表示各记录中的字段和用于所述字段的对应值;调查元素生成模块,用于为每个处理器生成每个相异字段值对的调查元素,所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数;计算模块,用于基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字;以及归档生成模块,用于基于对应的统计数字为所述记录流中的每个字段生成归档。本专利技术的方案可以包括一个或多个以下特征。字段值对生成模块包括用于确定记录中的特定字段是否为条件字段的模块;以及用于响应于确定所述特定字段为条件字段,确定所述特定字段是否具有值的模块。记录流的至少一个记录包括可变数目的字段。数据处理装置还包括用于基于所述统计数字确定格式规范的模块。数据处理装置还包括用于计算至少一个字段的直方图或十分位数统计数字的模块。数据处理装置还包括用于基于所述记录的顺序特性计算用于所述记录流的序列统计数字的模块。一般而言,在再一个方案中,本专利技术的特征是存储用于数据处理的计算机程序的计算机可读存储介质,所述计算机程序包括用于使计算机系统执行以下操作的指令接收记录流,每个记录包括一个或多个字段和对应值;在多个处理器之间分割所述记录流 ’为每个记录生成在各记录中具有值的每个字段的字段值对,所述字段值对表示各记录中的字段和用于所述字段的对应值;为每个处理器生成每个相异字段值对的调查元素,所述调查元素包括表示所述相异字段和所述相异值的字段值对的计数;基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字;以及基于对应的统计数字为所述记录流中的每个字段生成归档。本专利技术的方案可以包括一个或多个以下特征。生成在每个记录中具有值的每个字段的所述字段值对的步骤包括如下步骤确定记录中的特定字段是否为条件字段;以及响应于确定所述特定字段为条件字段,确定所述特定字段是否具有值。记录流的至少一个记录包括可变数目的字段。计算机程序还配置为包括用于使计算机系统基于所述统计数字确定格式规范的指令。计算机程序还包括用于使计算机系统为至少一个字段计算直方图或十分位数统计数字的指令。计算机程序还包括用于使计算机系统基于所述记录的顺序特性计算用于所述记录流的序列统计数字的指令。本专利技术的各个方案在对用户不熟悉的数据集进行归档时是很有用的。可以自动确定或协同用户确定的信息可以用于转存(populate)数据源的元数据,之后用于进一步的处理。本专利技术的其它特征和优点将从以下描述以及权利要求书中显而易见。附图说明图I为包括数据归档模块的系统的方框图。图2为用于数据归档的元数据存储器中对象的组织结构的方框图。图3为归档模块的归档图表。图4为用于说明数据格式类型对象的层级树形图。图5A-C为实施归档图表的调查进行组件、调查分析组件以及采样组件的子图表的示意图。图6为上滚过程的流程图。图7为规范化过程的流程图。图8A-C例示了显示归档结果的用户界面屏幕的输出。图9为不范性的归档过程的流程图。图10为示范性的归档过程的流程图。图IlA-B为对来自两对字段的记录进行的汇合操作的两个范例。图12A-B为对来自两对字段的调查记录进行的调查汇合操作的两个范例。图13为用于对两对字段进行单个调查汇合操作的扩展记录的范例。图14为用于产生扩展记录的扩展组件。图15A-C为用于进行汇合-字段分析的图表。图16为具有函数依赖性关系的字段的范例表格。图17为用于进行函数依赖性分析的图表。具体实施方式I 概述参照图1,数据处理系统10包括归档和处理子系统20,其用于处理来自数据源 30的数据,更新数据存储子系统40中的元数据存储器112和数据存储器124。然后,所存储的元数据和数据对于使用接口子系统50的用户是可访问的。一般而言,数据源30包括多种独立的数据源,每个数据源具有独有的存储格式和接口(例如,数据库表格、电子数据表(spreadsheet)文件、平面文本文件或主机110使用的固有格式)。各独立的数据源对于归档和处理子系统20可以是本地的,例如,位于相同的计算机系统(例如,文件102),或者对于归档和处理子系统20可以是远端的,例如,位于通过局域或广域数据网访问的远端计算机(例如,主机110)。数据存储子系统40包括数据存储器124和元数据存储器112。元数据存储器112 包括与数据源30中的数据相关的信息和关于数据存储器124中的数据的信息。这种信息可包括记录格式和确定这些记录中字段值的有效性的规范(有效性规范)。元数据存储器112可以用于存储关于待归档的数据源30中的数据集的初始信息, 以及在归档过程中获得的关于此数据集的信息,和从该数据集获取的数据存储器124中的数据集。数据存储器124可以用于存储已从数据源30读取的、使用从数据归档过程中获取的信息随意转换后的数据。归档和处理子系统20包括归档模块100,其以离散工作元素例如单独记录为单位直接从数据源读取数据,而不必在归档之前装载(landing)数据的完整副本至存储介质。一般地,一个记录与一组数据字段相关联,并且对于每个记录,每个字段具有特定值(可能包括零值)。数据源中的记录可以具有固定的记录结构,即,每个记录包括相同的字段。可替换地,记录可以具有可变记录结构,例如,包括可变长度矢本文档来自技高网...

【技术保护点】
一种数据处理方法,包括如下步骤:接收记录流,每个记录包括一个或多个字段和对应值;在多个处理器之间分割所述记录流;为每个记录生成在各记录中具有值的每个字段的字段值对,所述字段值对表示各记录中的字段和用于所述字段的对应值;为每个处理器生成每个相异字段值对的调查元素,所述调查元素包括表示相异字段和相异值的字段值对的计数;基于用于各字段的所述调查元素计算所述记录流中每个字段的统计数字;以及基于对应的统计数字为所述记录流中的每个字段生成归档。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:乔尔·古尔德卡尔·范曼保罗·贝
申请(专利权)人:起元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1